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本 书 所 面向 的 读者 是 那些 在 一 定 程度 上 熟悉 R 编程 语言 ， 并 具有 一 些 统计 学 知识 (即便 是 
碎片 化 的 知识 ， 或 是 短期 接触 过 统计 学 ) 的 数据 科学 家 。 作 为 本 书 的 作者 ， 我 们 都 是 从 统 
计 学 领域 迈 入 数据 科学 领域 的 ， 因 此 对 统计 学 在 数据 科学 中 可 做 的 贡献 有 所 了 解 。 同 时 ， 
我 们 也 十 分 清楚 传统 的 统计 学 教学 的 局 限 所 在 ， 即 统计 学 作为 一 门 学 科 已 经 有 150 多 年 的 
历史 了 ， 大 多 数 统计 学 课本 和 课程 都 表现 出 远洋 轮船 般 的 动量 和 惯性 ， 很 难 有 所 改变 。 

本 书 有 两 大 目标 : 

。 以 易于 理解 、 浏 览 和 参考 的 方式 ，3 引 出 统计 学 中 与 数据 科学 相关 的 关键 概念 ， 

。 解释 各 个 统计 学 概念 在 数据 科学 中 的 重要 性 和 有 用 程度 ， 并 给 出 原因 。 


本 书 的 独到 之 处 












































主要 术语 
数据 科学 融合 了 多 门 学 科 ， 包 括 统计 学 、 计 算 机 科学 、 信 息 技术 和 一 些 特定 领域 的 研 
究 。 因 此 ， 同 一 个 概念 可 能 会 使 用 多 个 不 同 的 术语 表述 。 本 书 将 使 用 类 似 此 处 的 格式 ， 
突出 显示 各 个 主要 术语 及 其 同义词 。 











排版 约定 


本 书 将 使 用 如 下 排版 约定 。 





。 黑体 字 
用 于 标识 新 的 术语 。 


。 等 宽 字 体 (constant width) 
用 于 标识 程序 清单 ， 以 及 段落 内 引用 的 程序 元 素 ， 例 如 变量 、 函 数 名 称 、 数 据 库 、 数 据 
类 型 、 环 境 变 量 、 程 序 语句 和 程序 语言 关键 字 等 。 
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。 等 宽 粗 体 (constant width botLd) 
表示 应 由 用 户 逐 字 输 入 的 命令 或 其 他 一 些 文本 内 容 。 
。 等 宽 斜体 (constant width italic) 
表示 文本 应 被 替换 ， 替 换 内 容 由 用 户 提 供 ， 或 取决 于 上 下 文 。 





此 图 标 表 示 一 个 知识 点 或 一 条 建议 。 








此 图 标 表 示 一 处 通用 注解 。 





此 图 标 表示 一 条 警告 或 警示 。 








使 用 代码 示例 


本 书 的 补充 材料 〈( 即 示例 代码 、 练 习 等 ) 可 从 https://github.com/andrewgbruce/statistics-for- 
data-scientists 下 载 。 


本 书 旨 在 帮助 你 更 好 地 完成 工作 。 一 般 来 说 ， 只 要 是 本 书 提供 的 示例 代码 ， 你 都 可 以 用 于 
自己 的 程序 和 文档 。 除 非 你 需要 大 规模 地 使 用 本 书 的 代码 ， 否 则 无 须 联系 作者 以 获得 许 
可 。 例 如 ， 你 在 编写 代码 时 使 用 了 书 中 的 几 处 代码 是 不 需要 获得 许可 的 ， 但 销售 或 分 发 
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我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 通 常 包 括 书 名 、 
作者 、 出 版 商 和 ISBN。 例 如 :“Practical Statistics for Data Scientists by Peter Bruce and 
Andrew Bruce (O’Reilly). Copyright 2017 Peter Bruce and Andrew Bruce, 978-1-491-95296-2.” 


如 果 你 认为 自己 对 示例 代码 的 使 用 超出 了 合理 使 用 的 范围 或 是 上 面 介 绍 的 许可 范围 ， 可 随 
时 通过 电子 邮件 permissions@oreilly.com 联系 我 们 。 
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第 1 章 


探索 性 数据 分 析 





在 过 去 的 一 个 世纪 中 ， 统 计 学 作为 一 门 学 科 得 到 了 长 足 的 发 展 。 概 率 论 是 统计 学 的 数学 基 
础 ， 它 基于 托马斯 ' 贝 叶 斯 、 皮 埃 尔 ' 西 蒙 ' 拉 普 拉 斯 和 卡尔 高 斯 等 人 的 工作 ， 在 17 世 
纪 至 19 世纪 期 间 形成 并 发 展 。 与 概率 论 的 纯 理 论 本 质 不 同 ， 统 计 学 是 一 门 应 用 科学 ， 关 
注 的 是 数据 的 分 析 和 建 模 。 现 代 统 计 学 是 一 门 严谨 的 科学 ， 其 根源 可 上 济 至 19 世纪 未 的 
弗朗西斯 "高 尔 顿 和 卡尔 "皮尔 逊 。20 世纪 初 ， 罗 纳 德 . 艾 尔 默 . 费 希 尔 成 为 现代 统计 学 的 
先驱 之 一 ， 他 提出 了 实验 设计 法 和 最 大 似 然 估计 等 重要 概念 。 不 少 其 他 统计 学 概念 在 很 大 
程度 上 也 座 深 地 植 根 于 数据 科学 中 。 本 书 的 主要 目标 就 是 帮助 你 理解 这 些 概 念 ， 并 阐明 这 
些 概 念 在 数据 科学 和 大 数据 的 背景 下 是 否 依然 重要 。 


本 章 的 重点 是 探索 数据 ， 这 是 所 有 数据 科学 项 目的 第 一 步 。 探 索性 数据 分 析 (EDA) 是 统 
计 学 中 一 个 相对 新 的 领域 。 经 典 统计 学 几乎 只 注重 推断 ， 即 从 小 样本 得 出 关于 整体 数据 的 
结论 ， 这 往往 是 一 个 复杂 的 过 程 。1962 年 ， 约 翰 图 基 (图 1-1) 发 表 了 一 篇 著名 的 论文 
“The Future of Data Analysis" ， 由 此 引发 了 对 统计 学 的 重 构 。 在 论文 中 ， 图 基 提 出 了 他 称 
之 为 数据 分 析 的 一 门 新 学 科 ， 并 将 统计 推断 包括 于 其 中 ， 由 此 建立 了 与 工程 和 计算 机 科学 
界 的 联系 [他 提出 了 术语 比特 和 软件 ， 其 中 “比特 ”(bit) 是 “二 进 制 数字 ”(binary digit) 
的 缩写 ]。 出 乎 意料 的 是 ， 这 一 初始 理念 被 延续 了 下 来 ， 并 成 为 了 数据 科学 的 基础 之 一 。 
图 基 编 车 并 在 1977 年 出 版 了 Exploratory Data Analysis 一 书 ， 该 书 开 创 了 探索 性 数据 分 析 
这 一 研究 领域 ， 现 已 成 为 一 本 经 典 图 书 。 

随 着 计算 能 力 和 数据 分 析 软 件 可 用 性 的 提高 ， 探 索性 数据 分 析 的 发 展 已 远 超 其 最 初 的 范 
围 。 该 学 科 的 主要 驱动 力 来 自 于 新 技术 的 快速 发 展 、 更 多 及 更 大 规模 的 可 访问 数据 ， 以 及 
定量 分 析 在 多 个 学 科 中 更 广泛 的 应 用 。 斯 坦 福 大 学 统计 学 教授 戴 维 . 多 诺 霍 曾 撰写 过 一 篇 
很 好 的 文章 ， 文 中 将 数据 科学 的 起 源 追 漳 为 图 要 在 数据 分 析 领 域 所 做 的 开创 性 工作 。 多 诺 
霍 教 授 在 本 科 期 间 曾 得 到 图 基 的 指导 ， 该 文 是 他 基于 自己 在 美国 新 译 西 州 普林斯顿 召开 的 










































































图 基教 授 百年 纪念 研讨 会 上 的 演讲 ' 而 撰写 的 。 

















图 1-1: 约 输 .图 基 ， 著 名 统计 学 家 ， 他 在 50 多 年 前 提出 的 理论 构成 了 数据 科学 的 基础 


1.1 结构 化 数据 的 组 成 


数据 的 来 源 非常 丰富 ， 例 如 传感器 的 测量 值 、 事 件 、 文 本 、 图 像 和 视频 等 ， 并 且 物 联网 正 
在 涌 出 大 量 信息 流 。 这 些 数据 大 多 是 非 结 构 化 的 。 例 如 ， 图 像 由 一 系列 像素 点 组 成 ， 每 个 
像素 包括 了 红 、 绿 、 蓝 三 原色 信息 ， 文 本 是 单词 和 非 单词 字符 的 序列 ， 常 以 章节 、 子 章节 
等 形式 组 织 在 一 起 ;点 击 流 是 用 户 在 App 或 Web 页 面 上 的 动作 序列 。 事 实 上 ， 如 何 将 大 
量 的 原始 数据 转化 为 可 操作 的 信息 ， 这 才 是 数据 科学 所 面 对 的 主要 挑战 。 要 使 用 本 书 中 介 
绍 的 统计 学 概念 ， 就 必须 将 非 结构 化 的 原始 数据 结构 化 (就 像 是 从 关系 型 数据 库 中 取出 的 
数据 那样 )， 或 者 出 于 研究 目的 采集 数据 。 




















要 术语 
连续 型 数据 
数据 可 在 一 个 区 间 内 取 任 何 值 。 
同义词 : 区 间 数 据 、 浮 点 型 数据 、 数 值 数据 


离散 型 数据 
数据 只 能 取 整 数 ， 例 如 计数 。 


同义词 : 整数 型 数据 、 计 数 型 数据 


分 类 型 数据 
数据 只 能 从 特定 集合 中 取 值 ， 表 示 一 系列 可 能 的 分 类 。 


同义词 : 枚 举 数 据 、 列 举 数据 、 因 子 数据 、 标 称 数据 、 多 分 支 数 据 











注 1: Donoho, David.“50 Years of Data Science” (2015). 
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二 元 数据 
一 种 特殊 的 分 类 数据 ， 数 据 值 只 能 从 两 个 值 中 取 其 一 〈 例 如 0 或 1，True 或 False) 。 
同义词 : 二 分 数据 、 还 辑 型 数据 、 指 示 器 数据 、 布 尔 型 数据 


有 序数 据 
具有 明确 排序 的 分 类 数据 。 


同义词 : 有 序 因 子 数据 

















结构 化 数据 有 两 种 基本 类 型 ， 即 数值 型 数据 和 分 类 数据 。 数 值 型 数据 有 连续 型 和 离散 型 两 种 
形式 。 风 速 、 持 续 时 间 等 是 连续 型 数据 ， 而 某 一 事件 的 发 生 次 数 则 是 离散 型 数据 。 分 类 数据 
只 能 取 一 系列 固定 的 值 ， 例 如 ， 电 视屏 幕 的 类 型 可 以 是 等 离子 体 、LCD 或 LED 等 ， 美 国 各 
州 的 名 称 包括 阿拉 巴 马 州 、 阿 拉 斯 加 州 等 。 二 元 数据 是 一 种 重要 且 特 殊 的 分 类 数据 ， 该 类 数 
据 的 取 值 只 在 两 者 中 择 其 一 ， 例 如 0 或 1、 是 或 否 、True 或 False 等 。 有 序数 据 是 另 一 种 有 
用 的 分 类 数据 ， 该 类 数据 是 按 分 类 排序 的 ， 例 如 数值 排序 (1、2、3、4 或 5)。 


我 们 为 什么 要 关心 数据 类 型 的 分 类 呢 ? 事实 表明 ， 在 数据 分 析 和 预测 建 模 中 ， 数 据 类 型 
对 于 确定 可 视 化 类 型 、 数 据 分 析 或 统计 模型 是 非常 重要 的 。R 和 Python 等 数据 科学 软件 
也 使 用 数据 类 型 去 改进 计算 性 能 。 更 重要 的 是 ， 变 量 的 数据 类 型 决定 了 软件 处 理 变 量 计 
算 的 方法 。 

对 此 ， 软 件 工程 师 和 数据 库 编 程 人 员 可 能 会 产生 疑问 : 为 什么 我 们 在 数据 分 析 中 也 需要 了 
解 分 类 数据 和 有 序数 据 呢 ? 毕竟 ， 分 类 数据 只 是 一 组 文本 值 (或 数值 ) ， 数 据 的 内 部 表示 
会 被 后 台 的 数据 库 自 动 处 理 。 但 是 ， 相 比 于 文本 表示 ， 将 数据 显 式 地 标识 为 分 类 数据 的 确 
具有 如 下 优点 。 


。 如 果 我 们 明确 输入 的 是 分 类 数据 ， 那 么 软件 就 可 以 据 此 确定 统计 过 程 的 工作 方式 ， 例 如 
图 表 生 成 或 模型 拟 合 。 具 体 到 R 和 Python 中 ， 有 序数 据 可 用 ordered.factor 表示 ， 这 
样 用 户 指 定 的 顺序 就 能 保持 在 图 、 表 和 模型 中 。 

。 可 以 优化 存储 和 索引 ， 如 同 在 关系 型 数据 库 中 那样 。 

。 限定 了 给 定 分 类 变量 在 软件 中 的 可 能 取 值 ， 例 如 枚 举 类 型 。 

第 三 个 优点 可 能 会 导致 一 些 邻 人 意 想 不 到 的 行为 。R 语言 的 数据 导入 函数 (例如 read.csv) 
默认 将 一 列 文本 自动 转换 为 因子 (factor)。 随 后 操作 该 列 数据 时 ， 会 假定 所 允许 的 值 局 限 
于 先前 已 导入 的 值 。 此 时 赋值 一 个 新 的 文本 值 ， 将 会 触发 警告 ， 并 生成 NA 〈 即 缺失 值 ) 。 

















































































































本 节 要 点 
。 在 软件 中 ， 数 据 通 常 按 类 型 分 类 。 
。 数据 类 型 包括 连续 型 数据 、 离 散 型 数据 、 分 类 数据 (其 中 包括 二 进 制 数据 ) 和 有 序 
数据 。 
。 数据 分 类 为 软件 指明 了 数据 的 处 理 方式 。 
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拓展 阅读 

。 数据 类 型 有 时 会 邻 人 困惑 ， 因 为 各 类 型 间 会 有 一 些 重 亚 ， 而 且 不 同 软件 的 数据 分 类 可 能 
各 有 不 同 。R Tutorial 网 站 给 出 了 R 语言 使 用 的 分 类 方式 。 

。 数据 库 有 更 详细 的 数据 分 类 方式 ， 其 中 考虑 了 精度 级 别 、 固 定 长 度 或 可 变 长 度 字 段 等 因 
素 。 参 见 W3Schools 的 SQL 指南 。 


1.2 ”和 矩形 数据 


和 矩形 数据 对 象 是 数据 科学 分 析 中 的 典型 引用 结构 ， 甜 形 数 据 对 象 包括 电子 表格 、 数 据 库 


表 等 。 









































主要 术语 
数据 框 
电子 表格 等 矩形 数据 是 统计 和 机 器 学 习 模型 中 的 基本 数据 结构 。 
数据 特征 


通常 称 数据 表 中 的 一 列 为 一 个 特征 。 
同义词 : 属性 、 输 入 、 预 测 因子 、 变 量 
结果 
不 少数 据 科 学 项 目 涉 及 对 结果 的 预测 ， 常 见 的 结果 为 “是 ”或 “ 否 ”( 例 如 表 1-1 
中 的 “拍卖 是 否 竞价? “) 。 特 征 有 时 在 实验 或 研究 中 用 于 预测 结果 。 
同义词 : 固 变量、 响应、 目标、 输出 
记录 
通常 称 数据 表 中 的 一 行为 一 条 记录 。 
同义词 : 事例 、 例 子 、 实 例 、 观 察 、 模 式 、 样 本 




















和 矩形 数据 本 质 上 是 一 个 二 维和 矩阵 ， 其 中 行 表示 记录 (事例 )， 列 表示 特征 (变量 )。 数 据 通 
常 并 非 一 开始 就 是 矩阵 形式 的 。 例 如 ， 文 本 等 非 结构 化 数据 必须 先 经 处 理 和 操作 ， 才 能 表 
示 为 矩形 数据 形式 的 一 系列 特征 (参见 1.1 节 )。 对 于 很 多 数据 分 析 和 建 模 任务 ， 存 储 在 关 
系 型 数据 库 中 的 数据 必须 先 被 抽取 出 来 ， 并 置 于 一 张 表 中 。 

表 1-1 显示 了 测量 数据 或 计数 数据 ( 例如 “持续 时 间 ” 和 “成 交 价 ”) 及 分 类 数据 (例如 
“分 类 ”和 “货币 ”)。 如 上 所 述 ， 二 元 变量 (例如 “是 ”或 “ 否 ”， 0 或 1) 是 一 种 特殊 的 
分 类 数据 。 表 1-1 的 最 右 一 列 是 一 个 指标 变量 ， 表 示 拍 卖 是 否 进 行 了 竞价 。 

表 1-1: 一 种 常见 的 数据 格式 





















































分 类 货币 卖家 评级 ” 持续 时 间 ”终止 日 期 ”成 交 价 开拍 价 是 否 竞价 
音乐 /电影 /游戏 美元 3249 5 周一 0.01 0.01 0 
音乐 /电影 /游戏 美元 3249 5 周一 0.01 0.01 0 
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分 类 货币 卖家 评级 ”持续 时 间 ”终止 日 期 ”成 交 价 开拍 价 是 否 竞价 
汽车 美元 3115 7 周二 0.01 0.01 0 
汽车 美元 3115 7 周二 0.01 0.01 0 
汽车 美元 3115 7 周二 0.01 0.01 0 
汽车 美元 3115 7 周二 0.01 0.01 0 
汽车 美元 3115 7 周二 0.01 0.01 1 
汽车 美元 3115 7 周二 0.01 0.01 1 














1.2.1 数据 框 和 索引 


传统 数据 库 表 会 指定 一 列 或 多 个 列 为 索引 。 索 引 可 以 极 大 地 提高 某 些 SQL 查询 的 效率 。 在 
带 有 pandas 数据 分 析 库 的 Python 中 ， 基 本 的 矩形 数据 结构 是 DataFrame 对 象 ， 并 且 在 默认 
情况 下 ，Python 会 根据 DataFrame 对 象 中 行 的 次 序 ， 自 动 建立 一 个 整数 索引 。pandas 数据 
分 析 库 支持 设置 多 级 或 层次 索引 ， 以 提高 特定 操作 的 效率 。 


在 R 语 言 中 ， 基 本 的 矩形 数据 结构 是 data.frame 对 象 。data.frame 隐 含 有 基于 行 次 序 的 整 
数 索 引 。 虽 然 用 户 可 以 使 用 row.names 属性 创建 自 定义 键 值 ， 但 是 R 语言 的 原生 data.frame 
并 不 支持 自 定 义 索 引 或 多 级 索引 。data.tabte 和 dplyr 这 两 个 新 的 R 包 解决 了 这 一 缺陷 ， 因 
而 得 到 了 广泛 的 使 用 。 它 们 都 支持 多 级 索引 ， 可 以 显著 提高 data.frame 的 使 用 效率 。 


术语 上 的 差异 

和 矩形 数据 的 术语 可 能 令 人 困惑 。 对 于 同一 事物 ， 统 计 学 家 和 数据 科学 家 使 用 
了 不 同 的 术语 。 统 计 学 家 在 模型 中 使 用 预测 变量 去 预测 一 个 响应 或 因 变 量 ， 
而 数据 科学 家 使 用 特征 去 预测 目标 。 还 有 一 个 同义词 尤其 令 人 困惑 。 对 于 一 
行 数据 ， 计 算 机 科学 家 使 用 样本 这 一 术语 ， 而 对 于 统计 学 家 ， 一 个 样本 意味 
着 一 个 行 的 集合 。 


















































1.2.2” 非 矩形 数据 结构 
除了 移 形 数据 之 外 ， 还 有 一 些 其 他 类 型 的 数据 。 


时 序数 据 记 录 了 对 同一 变量 的 连续 测量 值 。 它 是 统计 预测 方法 的 原始 输入 数据 ， 也 是 物 联 
网 设备 所 生成 的 数据 的 关键 组 成 部 分 。 


空间 数据 结构 用 于 地 图 和 定位 分 析 ， 它 比 和 矩形 数据 结构 更 为 复杂 和 多 变 。 在 对 和 象 表示 中 ， 
空间 数据 关注 的 是 对 象 〈 例 如 一 所 房子 ) 及 甚 空间 坐标 。 与 之 形成 对 比 的 是 ， 字 段 视图 关 
注 空 间 中 的 小 单元 及 相关 的 度量 值 (例如 像素 点 的 亮度 )。 


图 形 (或 网 络 ) 数据 结构 用 于 表示 物理 上 的 、 社 交 网 络 上 的 和 抽象 的 关系 。 例 如 ， 
Facebook 或 LinkedIn 等 社交 网 络 图 表示 了 人 们 在 网 络 上 的 相互 联系 ， 由 道路 连接 在 一 起 的 
分 布 汇 聚 点 构成 了 一 个 物理 网 络 的 例子 。 图 形 结构 对 于 某 些 类 型 的 问题 十 分 有 用 ， 例 如 网 
络 优 化 和 推荐 系统 。 
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在 数据 科学 中 ， 每 种 数据 类 型 都 有 其 独特 的 方法 论 。 本 书 关注 的 是 和 矩形 数据 ， 它 是 预测 建 
模 的 基本 构件 。 

统计 学 中 的 图 形 

在 计算 机 科学 和 信息 技术 中 ， 图 形 通常 指 对 实体 间 关 联 情况 的 描述 及 底层 的 
数据 结构 。 在 统计 学 中 ， 图 形 用 于 指 代 各 种 绘图 和 可 视 化 结果 ， 而 不 仅仅 是 
指 实体 间 的 关联 情况 。 这 一 术语 只 用 于 指 代 可 视 化 ， 而 非 数 据 结构 。 























本 节 要 点 
。 矩阵 是 数据 科学 中 的 基本 数据 结构 。 在 矩阵 中 ， 行 是 记录 ， 列 是 变量 (特征 )。 
。 术语 中 会 存在 一 些 仿 人 困惑 之 处 。 在 与 数据 科学 相关 的 各 学 科 中 ， 例 如 统计 学 、 计 
算 机 科学 和 信息 技术 等 ， 存 在 着 一 系列 的 同义词 。 











1.2.3 ”拓展 阅读 


。 及 语言 中 数据 框 的 相关 文档 。 
。 Python 数据 框 的 相关 文档 。 


1.3 位置 估计 

变量 表示 了 测量 数据 或 计数 数据 ， 一 个 变量 的 取 值 可 能 会 数 以 千 计 。 探 索 数 据 的 一 个 基本 
步骤 ， 就 是 获得 每 个 特征 (变量 ) 的 “典型 值 ”。 暴 型 值 是 对 数据 最 常 出 现 位 置 的 估计 ， 
即 数据 的 集中 趋势 。 











主要 术语 
均值 
所 有 数据 值 之 和 除 以 数值 的 个 数 。 
同义词 : 平均 什 
加 权 均 值 


各 数值 乘 以 相应 的 权重 值 ， 然 后 加 总 求 和 ， 再 除 以 权重 的 总 和 。 
同义词 : 加 权 平 均值 


中 位 数 
使 得 数据 集中 分 别 有 一 半数 据 位 于 该 值 之 上 和 之 下 。 


同义词 : 第 50 百 分 位 数 


加 权 中 位 数 
使 得 排序 数据 集中 分 别 有 一 半 的 权重 之 和 位 于 该 值 之 上 和 之 下 。 
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切 尾 均值 
在 数据 集 别 除 一 定数 量 的 极 值 后 ， 再 求 均值 。 


同义词 : 截 尾 均值 


稳健 
对 极 值 不 敏感 。 
同义词 : 耐 抗 性 
离 群 值 
与 大 部 分 数据 值 差 异 很 大 的 数据 值 。 
同义词 : 极 值 








乍 一 看 ， 总 结 数据 是 一 件 十 分 简单 的 事情 ， 对 数据 取 均 值 即 可 (参见 1.3.1 市 )。 事 实 上 ， 
虽然 均值 易于 计算 ， 也 便于 使 用 ， 但 在 一 般 情况 下 ， 均 值 并 非 是 对 中 心 值 的 最 好 度量 。 因 
此 ， 统 计 学 家 研究 并 提出 了 一 些 估计 量 ， 用 于 替代 均值 。 
度量 和 估计 量 
统计 学 家 通常 使 用 估计 量 (estimate) 一 词 表示 从 手头 已 有 数据 计算 得 到 的 值 ， 
用 于 描述 所 看 到 的 数据 情况 与 确切 的 (或 理论 上 为 真 的 ) 状态 之 间 的 差异 。 数 
据 科学 家 和 商业 分 析 师 更 倾向 于 称 这 些 由 计算 得 到 的 值 为 度量 (metric)。 这 一 
术语 上 的 差异 ， 反 映 了 统计 学 家 和 数据 科学 家 在 方法 上 的 不 同 。 统 计 学 的 核心 
在 于 如 何 解释 不 确定 度 ， 而 数据 科学 则 关注 如 何 解决 一 个 具体 的 商业 或 企业 
目标 。 因 此 ， 统 计 学 家 使 用 估计 量 ， 而 数据 科学 家 使 用 度量 。 
































1.3.1 均值 

均值 ， 又 称 平均 值 ， 是 最 基本 的 位 置 估计 量 。 均 值 等 于 所 有 值 的 总 和 除 以 值 的 个 数 。 例 
如 ， 集 合 {3, 5, 1, 2}) 的 均值 是 (3 +5+ 1+2)/4 = 11/4 = 2.75。 一 般 使 用 符号 元 〈 读 作 “x 
拔 ”) 表示 总 体 中 一 个 样本 的 均值 。 给 定 n 个 数据 值 ， xx, …, xw， 均 值 的 计算 公式 为 : 





均值 = 1 





通常 使 用 和 N (或 者 n) 表示 记录 值 或 观测 值 的 总 数 。 在 统计 学 中 ， 如 果 我 们 
指 的 是 总 体 ， 则 使 用 大 写字 母 N， 如 果 指 的 是 总 体 中 的 一 个 样本 ， 则 使 用 小 
写字 母 n。 但 是 在 数据 科学 中 ， 这 一 区 别 无 关 紧 要 ， 因 此 两 种 表示 方式 均 可 。 

















切 尾 均值 是 均值 的 一 个 变 体 。 计 算 切 尾 均值 时 ， 需 要 在 一 个 有 序数 据 集 的 两 端 上 去 除 一 定 
数量 的 值 ， 再 计算 剩余 数值 的 均值 。 如 果 使 用 xo, xo, …, xm 表示 一 个 有 序数 据 集 ， 其 中 
xo 是 最 小 值 ，xo 是 最 大 值 ， 那 么 去 除 p 个 最 大 值 和 p 个 最 小 值 的 切 尾 均值 的 计算 公式 为 : 
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n-p 
ao 


n—2p 


声 尾 均值 消除 了 极 值 对 均值 的 影响 。 举 个 例子 ， 在 国际 跳水 比赛 中 ， 会 有 五 名 裁判 打分 ， 
一 名 选手 的 最 终 得 分 需要 去 除 其 中 的 最 高 分 和 最 低 分 ， 取 余下 三 名 裁判 打分 的 均值 *。 这 确 
保 了 裁判 难以 操纵 选手 的 得 分 ， 因 为 每 名 裁判 可 能 会 偏向 自己 国家 的 选手 。 切 尾 均值 得 到 
了 广泛 使 用 。 相 对 于 普通 的 均值 ， 人 们 在 很 多 情况 下 更 倾向 于 使 用 切 尾 均值 。1.3.2 方 将 对 
此 做 出 详细 的 介绍 。 


另 一 种 均值 是 加 权 均 值 。 在 计算 加 权 均 值 时 ， 要 将 每 个 值 x; 乘 以 一 个 权重 值 w， 并 将 加 权 
值 的 总 和 除 以 权重 的 总 和 。 计 算 公 式 为 : 


切 尾 均值 = 元 = 















































TI 

















TI 
| 
M4 
了 
三 
ba 





加 权 均 值 = ,= 




















使 用 加 权 均 值 ， 主 要 是 出 于 以 下 两 个 方面 的 考虑 。 


。 一 些 值 本 质 上 要 比 其 他 的 值 更 为 多 变 , 因此 需要 对 多 变 的 观测 值 赋 予 较 低 的 权重 。 例 如 ， 
如 果 我 们 需要 对 来 自 多 个 传感器 的 数据 计算 均值 ， 但 是 其 中 一 个 传感器 的 数据 不 是 很 准 
确 ， 那 么 我 们 可 对 该 传感器 的 数据 赋予 较 低 的 权重 。 

。 所 采集 的 数据 可 能 并 未 准确 地 表示 我 们 想 要 测量 的 不 同 群 组 。 例 如 ， 受 限于 在 线 实验 的 
开展 方式 ， 我 们 得 到 的 数据 集 可 能 并 未 准确 地 反映 出 不 同 用 户 群 组 的 情况 。 为 了 修正 这 
一 问题 ， 我 们 可 对 未 准确 表示 的 群 组 赋予 较 高 的 权重 。 


1.3.2 ”中 位 数 和 稳健 估计 量 


中 位 数 是 位 于 有 序数 据 集中 间 位 置 处 的 数值 。 如 果 数 值 的 个 数 为 偶数 ， 那 么 中 位 数 实际 上 
是 位 于 中 间 位 置 处 的 两 个 值 的 均值 。 不 同 于 使 用 所 有 观测 值 计算 得 到 的 均值 ， 中 位 数 仅 取 
决 于 有 序数 据 集中 间 位 置 处 的 值 。 尽 管 看 上 去 中 位 数 的 计算 方法 存在 一 些 弊端 ， 但 是 考虑 
到 均值 对 数据 更 敏感 ， 因 此 在 不 少 实际 应 用 中 ， 中 位 数 依然 是 更 好 的 位 置 度量 。 例 如 ， 我 
们 想 要 了 解 西 雅 图 华盛顿 湖 周 边 地 区 普通 家 庭 的 收入 情况 。 在 比较 麦 地 那 地 区 和 温 德 米尔 
地 区 时 ， 使 用 均值 会 产生 过 异 的 结果 ， 因 为 比尔 盖 茨 就 生活 在 麦 地 那 地 区 。 如 果 使 用 中 
位 数 ， 那 么 统计 结果 完全 不 会 受 比 尔 ' 盖 茨 的 影响 。 处 于 中 间 位 置 的 观测 值 不 会 有 变化 。 
有 时 我 们 需要 计算 加 权 中 位 数 ， 这 与 使 用 加 权 均 值 的 原因 相同 。 和 计算 中 位 数 一 样 ， 我 们 
首先 不 考虑 每 个 数值 所 关联 的 权重 ， 对 数据 集 排序 。 加 权 中 位 数 并 不 是 取 有 序数 据 集 中 间 
位 置 处 的 值 ， 而 是 取 可 以 使 有 序数 据 集 上 下 两 部 分 的 权重 总 和 相同 的 值 。 和 中 位 数 一 样 ， 
加 权 中 位 数 也 对 离 群 值 不 敏感 。 

离 群 值 

我 们 称 中 位 数 为 一 种 对 位 置 的 稳健 估计 量 ， 因 为 它 不 会 受 离 群 值 (极端 情 况 ) 的 影响 ， 而 
离 群 值 会 使 结果 产生 偏差 。 离 群 值 是 距离 数据 集中 其 他 所 有 值 都 很 远 的 值 。 尽 管 在 各 种 数 

























































































注 2:“Diving.”Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc. 10 Mar 2016. Web. 19 Mar 2016. 
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据 汇总 和 绘图 中 对 离 群 值 给 出 了 一 些 惯 例 表 示 (参见 1.5.1 节 ) ， 但 是 对 离 群 值 的 准确 定义 
还 是 摆脱 不 了 主观 性 。 离 群 值 本 身 并 不 一 定 是 无 效 的 或 错误 的 数据 〈 如 上 例 中 比尔 盖 茨 
的 收入 )， 但 往往 是 由 数据 的 错误 所 导致 的 ， 例 如 ， 混 请 了 数据 的 计量 单位 〈 混 用 了 千 米 
与 米 )， 或 是 传感器 的 读数 不 准确 。 如 有 果 离 群 值 是 由 不 准确 的 数据 导致 的 ， 这 时 使 用 均值 
就 会 给 出 糟糕 的 位 置 估 计 ， 而 使 用 中 位 数 的 估计 则 依然 有 效 。 无 论 是 哪 种 情况 ， 我 们 都 应 
找 出 离 群 值 ， 而 且 它 们 通常 也 值得 进一步 研究 。 























异常 检测 

在 普通 的 数据 分 析 中 ， 离 群 值 有 时 富 含 信息 ， 有 时 则 令 人 头疼 。 而 异常 检测 
则 不 同 ， 它 所 关注 的 就 是 离 群 值 ， 而 其 余 大 部 分 数据 则 用 于 定义 “正常 ”的 
情况 ， 即 如 何 测定 异常。 

















中 位 数 并 非 唯一 的 稳健 位 置 估计 量 。 事 实 上 ， 为 了 消除 离 群 值 的 影响 ， 也 广泛 地 使 用 了 切 
尾 均值 。 例 如 ， 除 非 数 据 集 的 规模 很 小 ， 否 则 通常 我 们 会 将 数据 集 的 开头 和 结尾 各 舍弃 
10%， 以 使 数据 集 免 受 离 群 值 的 影响 。 切 尾 均 值 可 以 看 作 一 种 在 中 位 数 和 均值 之 间 的 折 中 
方案 。 它 对 数据 集中 的 极 值 非常 稳健 ， 同 时 在 计算 位 置 估计 量 时 使 用 了 更 多 的 数据 。 

其 他 稳健 的 位 置 估计 量 

统计 学 家 还 提出 了 很 多 其 他 的 位 置 估计 量 ， 主 要 目的 在 于 提供 比 均值 更 稳 
健 、 更 高 效 的 估计 量 。 其 中 更 高 效 是 指 ， 能 够 更 好 地 分 辩 数 据 集中 的 微小 位 


置 差异 。 这 些 估 计量 通常 适用 于 小 规模 的 数据 集 ， 而 对 于 大 规模 乃至 中 等 规 
模 的 数据 集 ， 它 们 并 不 能 提供 更 多 的 帮助 。 


























1.3.3 位置 估计 的 例子 : 人 口 和 谋杀 率 


表 1-2 显示 了 一 个 数据 集 的 前 几 行 数据 ， 其 中 包含 了 美国 各 州 的 人 口 数量 和 谋杀 率 ， 单 位 
为 每 年 每 十 万 人 中 被 谋杀 的 人 数 。 


表 1-2: data.frame 中 的 几 行 数据 ， 列 出 了 美国 各 州 的 人 口 数量 和 谋杀 率 




















州 人 口 谋杀 率 
1 阿拉 巴 马 州 4779 736 5.7 
2 阿拉 斯 加 州 710 231 5.6 
3 亚利桑那 州 6392 017 4.7 
4 阿肯色 州 2915 918 5.6 
5 加 利 福 尼 亚 州 37 253 956 4.4 
6 科罗拉多 州 5 029 196 2.8 
7 康涅狄格 州 3 574 097 2.4 
8 特 拉 华 州 897 934 5.8 


下 面 使 用 R 语言 计算 美国 各 州 人 口 的 均值 、 切 尾 均值 和 中 位 数 。 
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> state <- read.csv(file="/Users/andrewbruce1/book/state.csv") 
> mean(state[["Population"]]) 

[1] 6162876 

> mean(state[["Population"]], trim=0.1) 

[1] 4783697 

> median(state[["Population"]]) 

[1] 4436370 


我 们 看 到 ， 均 值 大 于 切 尾 均 值 ， 而 切 尾 均 值 大 于 中 位 数 。 


这 是 因为 ， 切 尾 均 值 分 别 去 除了 最 大 的 和 最 小 的 五 个 州 (trim=6.1 表示 在 最 大 端 和 最 小 端 
分 别 去 除 10% 的 数据 )。 如 采 要 计算 美国 的 平均 谋杀 率 ， 那 么 需要 使 用 加 权 均 值 或 中 位 数 ， 
这 两 个 度量 考虑 了 各 州 的 人 口 差 异 。R 语言 并 未 提供 计算 加 权 中 位 数 的 函数 ， 因 此 我 们 需 
要 安装 额外 的 软件 包 ， 比 如 matrixstats。 代 码 如 下 。 

> weighted.mean(state[["Murder .Rate"]], w=state[["Population"]]) 

[1] 4.445834 

> library("matrixStats") 


> weightedMedian(state[["Murder.Rate"]], w=state[["Population"]]) 
[1] 4.4 


在 本 例 中 ， 加 权 中 位 数 和 中 位 数 大 体 相同 。 























本 节 要 点 
。 均值 是 一 种 基本 的 位 置 度量 ， 但 是 对 极 值 ( 离 群 值 ) 敏感 。 
。 其 他 一 些 度量 更 为 稳健 ， 例 如 中 位 数 和 切 尾 均值 。 











1.3.4 拓展 阅读 


。 对 于 计算 基本 的 位 置 度量 , 美国 普度 大 学 的 Michael Levine 提供 了 一 些 有 用 的 课程 讲义 。 
。 约翰 .图 基 的 经 典 著作 Exploratory Data 4Analysis 至 今 依然 广 为 阅 读 。 


1.4 变异 性 估计 


位 置 只 是 总 结 特性 的 一 个 维度 ， 男 一 个 维度 是 变异 性 (variability)， 也 称 离 差 (dispersion)， 
它 测 量 了 数据 值 是 紧密 聚集 的 还 是 发 散 的 。 变 异性 是 统计 学 的 一 个 核心 概念 ， 统 计 学 关注 
如 何 测量 变异 性 ， 如 何 降低 变异 性 ， 如 何 识别 真实 变异 性 中 的 随机 性 ， 如 何 识 别 真实 变异 
性 的 各 种 来 源 ， 以 及 如 何在 存在 变异 性 的 情况 下 做 出 决策 。 



































主要 术语 
偏差 
位 置 的 观测 值 与 估计 值 间 的 直接 差异 。 


同义词 : 误差 、 残 差 











方差 
对 于 nn 个 数据 值 ， 方差 是 对 距离 均值 的 偏差 平方 后 求 和 ， 再 除 以 n-1。 
同义词 : 均 方 误差 


标准 偏差 

方差 的 平方 根 。 

同义词 : L2 范 数 、 欧 几 里 得 范 数 
平均 绝对 偏差 


对 数据 值 与 均值 间 偏 差 的 绝对 值 计 算 均 值 。 
同义词 : Ll 范 数 、 曼 哈 顿 范 数 


中 位 数 绝对 偏差 
数据 值 与 中 位 数 间 绝对 偏差 的 均值 。 


极 差 
数据 集中 最 大 值 和 最 小 值 间 的 差 值 。 


顺序 统计 量 
基于 从 大 到 小 排序 的 数据 值 的 度量 。 


同义词 : 秩 

百 分 位 数 
表示 一 个 数据 集中 ，P% 的 值 小 于 或 等 于 第 已 百 分 位 数 ，(100-P)9 的 值 大 于 或 等 
于 第 已 百 分 位 数 。 


同义词 : 四 分 位 数 


四 分 位 距 
第 75 百 分 位 数 和 第 25 百 分 位 数 间 的 差 值 。 


同义词 : 四 分 位 差 











正如 对 位 置 有 均值 、 中 位 数 等 多 种 不 同 的 测定 方式 ， 变 异性 也 有 多 种 不 同 的 测定 方式 。 


1.4.1 标准 偏差 及 相关 估计 值 


使 用 最 广泛 的 变异 性 估计 量 基于 位 置 估计 值 和 观测 数据 值 间 的 差异 或 偏差 。 给 定 一 个 数据 集 
{1, 4, 4}， 其 均值 是 3， 中 位 数 是 4。 各 个 数据 与 均值 的 偏差 分 别 为 : 1-3 = -2，4-3 = 1， 
4-3 = 1。 这 些 偏差 值 说 明了 数据 围绕 中 心 值 的 分 散 程度 。 
一 种 测量 变异 性 的 方法 是 ， 估 计 这 些 偏 差 的 一 个 典型 值 。 然 而 ， 对 这 些 偏差 值 本 身 取 均值 
是 无 法 给 出 更 多 信息 的 ， 因 为 负 的 偏差 值 将 会 抵消 正 的 偏差 值 。 事 实 上 ， 相 对 于 均值 的 偏 
差 值 的 总 和 为 零 。 一 种 简单 的 方法 是 对 均值 偏差 的 绝对 值 取 均值 。 在 上 例 中 ， 各 偏差 的 绝 
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对 值 分 别 是 2、1 和 1， 它们 的 均值 为 (2 + 1 + 1)/3 = 1.33。 这 就 是 平均 绝对 偏差 ， 计 算 公 
式 为 : 


平均 绝对 偏差 -=| 
n 

















其 中 x 是 样本 的 均值 。 


最 广为人知 的 变异 性 估计 量 是 方差 和 标准 偏差 ， 它 们 基于 偏差 的 平方 。 方 差 是 偏差 平方 值 
的 均值 ， 而 标准 偏差 是 方差 的 平方 根 。 























方 闫 -5 和 
n—l 


标准 偏差 =s = 人 


标准 偏差 比方 差 更 易于 理解 ， 因 为 它 具 有 与 原始 数据 相同 的 尺度 。 然 而 ， 考 虑 到 标准 偏差 
的 计算 公式 相对 更 复杂 ， 并 且 不 太 直 观 ， 大 家 可 能 会 奇怪 ， 为 什么 统计 学 中 更 愿意 使 用 标 
准 和 偏差， 而 不 是 平均 绝对 偏差 。 这 是 由 于 标准 偏差 在 统计 学 理论 中 的 领导 地 位 。 从 数学 角 
度 来 看 ， 使 用 平方 值 要 比 使 用 绝对 值 更 方便 ， 尤 其 是 对 于 统计 模型 。 









































自由 度 是 Nn, 还 是 n-1 ? 
在 统计 学 书籍 中 ， 总 是 存在 这 样 一 个 讨论 : 计算 方差 时 的 被 除数 为 什么 是 n-1， 而 不 
是 1? 这 一 讨论 引出 了 自由 度 的 概念 。 计 算 结 有 果 的 差别 并 不 大 ， 这 是 因为 通常 n 总 是 
足够 大 ， 以 至 于 除 以 n 或 除 以 n-1l 时 ， 结 果 并 不 会 有 很 大 的 差别 。 如 果 你 关注 这 一 问 
题 ， 我 们 在 此 解释 一 下 原因 。 这 是 基于 你 想 要 根据 样本 估计 总 体 这 一 前 提 。 


如 果 在 方差 公式 中 使 用 了 直观 的 除数 n， 那 么 就 会 低估 方差 的 真实 值 和 总 体 的 标准 偏 
差 。 这 被 称 为 有 偏 舍 计 。 但 是 ， 如 果 除 以 n-1 而 不 是 1， 这 时 标准 偏差 就 是 无 偏 估计 。 


要 完整 地 解释 为 什么 使 用 n 会 导致 有 偏 估计 ， 这 就 涉及 自由 度 的 概念 。 自 由 度 考 上 处 了 
计算 估计 量 中 的 限制 个 数 。 在 这 种 情况 下 ， 自 由 度 是 1-1， 因 为 其 中 有 一 个 限制 : 标 
准 偏差 依赖 于 计算 样本 的 均值 。 对 于 很 多 问题 而 言 ， 数 据 科 学 家 并 不 需要 担心 自由 度 
的 问题 。 但 是 在 某 些 情况 下 ， 自 由 度 十 分 重要 (参见 6.1.5 节 ) 。 














无 论 方差 、 标 准 偶 差 ， 还 是 平均 绝对 偏差 ， 它 们 对 离 群 值 和 极 值 都 是 不 稳健 的 〈 参 见 1.3.2 

市 )。 其 中 ， 方差 和 标准 偏差 对 离 群 值 尤 为 敏感 ， 因 为 它们 基于 偏差 的 平方 值 。 

中 位 数 绝对 偏差 (MAD) 是 一 种 稳健 的 变异 性 估计 量 。 中 位 数 绝对 偏差 的 计算 公式 为 : 
MAD = 中 位 数 (2 一 11 |,| x —m | |X —m ) 

其 中 ，m 是 中 位 数 。 和 中 位 数 一 样 ， 中 位 数 绝对 偏差 也 不 受 极 值 的 影响 。 我 们 可 以 参考 切 

尾 均值 的 计算 方法 (参见 1.3.1 节 )， 计 算 切 尾 标准 偏差 。 
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即使 数据 符合 正 态 分 布 ， 方 差 、 标 准 偏差 、 平 均 绝 对 偏差 以 及 中 位 数 绝对 偏 
差 这 四 者 也 并 非 是 等 价 的 估计 量 。 事 实 上 ， 标 准 偏差 总 是 大 于 平均 绝对 偏 
差 ， 而 平均 绝对 偏差 总 是 大 于 中 位 数 绝对 偏差 。 有 时， 中 位 数 绝对 偏差 会 乘 
上 一 个 常数 比例 因子 (通常 使 用 1.4826) ， 使 得 在 正 态 分 布下 ， 中 位 数 绝对 
偏差 与 标准 偏差 具有 相同 的 尺度 。 


1.4.2 ”基于 百 分 位 数 的 估计 量 
另 一 种 估计 离 差 的 方法 基于 对 有 序数 据 分 布 情况 的 查看 。 基 于 有 序数 据 的 统计 量 被 称 为 顺 
序 统计 量 ， 其 中 最 基本 的 测量 是 极 差 ， 即 数据 的 最 大 值 与 最 小 值 之 间 的 差 值 。 知 道 最 大 值 
和 最 小 值 本 身 也 是 十 分 有 用 的 ， 这 有 助 于 识别 离 群 值 。 但 是 极 差 对 离 群 值 非常 敏感 ， 对 于 
测量 数据 的 离 差 并 非 十 分 有 用 。 
为 避免 对 离 群 值 敏感 ， 我 们 可 以 删除 有 序数 据 两 端的 值 ， 然 后 再 查看 数据 的 极 差 。 正 式 表 
述 为 ， 此 估计 量 基于 百 分 位 数 间 的 差异 。 在 一 个 数据 集中 ， 第 己 百 分 位 数 表 明 ， 至 少 有 
P% 的 值 小 于 或 等 于 该 值 ， 而 (100-P)% 的 值 大 于 或 等 于 该 值 。 例 如 ， 如 果 要 找到 第 80 百 
分 位 数 ， 我 们 首先 对 数据 进行 排序 ， 然 后 从 最 小 值 开始 ， 按 照 从 小 到 大 的 顺序 数 出 其 中 
80% 的 数值 。 注 意 ， 中 位 数 等 同 于 第 50 百 分 位 数 。 百 分 位 数 在 本 质 上 等 同 于 四 分 位 数 ， 
而 四 分 位 数 是 根据 分 数 做 索引 的 ， 因 此 0.8 四 分 位 数 等 同 于 第 80 百 分 位 数 。 
变异 性 的 一 种 常用 测量 方法 第 25 百 分 位 数 和 第 75 百 分 位 数 间 的 差 值 ， 称 为 四 分 位 距 
(IQR)。 下 面 给 出 一 个 例子 ， 对 于 数据 集 {3, 1, 5, 3, 6, 7, 2, 9} ， 我 们 在 排序 后 得 到 {1, 2, 3, 3， 
5, 6, 7, 9}。 其 中 第 25 百 分 位 数 是 2.5， 第 75 百 分 位 数 是 6.5， 因 此 四 分 位 距 就 是 6.5-2.5 = 4。 
不 同 软件 在 计算 方法 上 可 能 会 稍 有 差异 ， 并 给 出 不 同 的 答案 (参见 本 节 末 给 出 的 知识 点 )， 
但 是 差异 通常 很 小 。 
对 于 规模 非常 大 的 数据 集 ， 准 确 计算 百 分 位 数 的 成 本 很 高 ， 因 为 需要 对 所 有 的 数据 做 排 
序 。 在 机 器 学 习 和 统计 软件 中 ,使 用 了 一 些 特殊 的 算法 *“， 这 些 算法 可 以 快速 计算 出 一 个 近 
似 的 百 分 位 数 ， 并 有 一 定 的 准确 度 。 
四 分 位 距 的 准确 定义 
如 果 一 个 数据 集中 的 数值 个 数 是 偶数 ( 即 n 是 偶数 )， 那 么 根据 上 面 的 定义 ， 
百 分 位 数 不 是 唯一 的 。 事 实 上 ， 我 们 可 以 取 任 意 一 个 位 于 顺序 统计 量 xp 和 
xu 间 的 值 ， 只 要 j 满足 : 

100x 之 过 P<100x2+1 

n n 
正式 的 表述 是 ， 百 分 位 数 是 一 种 加 权 平 均 : 
百 分 位 数 (P)= (1 一 W) Xj + WX jn) 

其 中 ， 权 重 值 w 介 于 0 和 1 之 间 。 不 同 的 统计 软件 选取 w 的 方法 略 有 不 同 。 
及 语言 的 quantile 函数 提供 了 9 种 计算 百 分 位 数 的 方法 。 除 非 数 据 集 的 规模 
很 小 ， 否 则 通常 我 们 不 需要 操心 百 分 位 数 的 准确 计算 方法 。 


































































































注 3: Zhang, Qi and Wang, Wei. 19th International Conference on Scientific and Statistical Database Management, 
IEEE Computer Society (2007). 
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1.4.3 例子 : 美国 各 州 人 口 的 变异 性 估计 量 
本 例 的 数据 集中 包括 了 美国 各 州 的 人 口 数量 和 谋杀 率 。 表 1-3 显示 了 该 数据 集 的 前 几 行 数据 。 
表 1-3: data.frame 的 几 行 数据 ， 显 示 了 按 州 统计 的 人 口 数量 和 谋杀 率 




















州 人 口 谋杀 率 
1 阿拉 巴 马 州 4779 736 5.7 
2 阿拉 斯 加 州 710 231 5.6 
3 亚利桑那 州 6392 017 4.7 
4 阿肯色 州 2915 918 5.6 
5 加 利 福 尼 亚 州 37 253 956 4.4 
6 科罗拉多 州 5 029 196 2.8 
7 康涅狄格 州 3 574 097 2.4 
8 特 拉 华 州 897 934 5.8 








下 面 使 用 RR 语言 自 带 的 函数 计算 标准 偏差 、 四 分 位 距 和 中 位 数 绝对 偏差 。 通 过 下 面 的 计 
算 ， 我 们 得 到 了 美国 各 州 人 口 数 据 的 变异 性 估计 量 。 

> sd(state[["Population"]]) 

[1] 6848235 

> IQR(state[["Population"]]) 

[1] 4847308 

> mad(state[["Population"]]) 

[1] 3849870 


可 以 看 到 ， 标 准 偏差 儿 乎 是 中 位 数 绝对 偏差 的 两 售 (在 R 语言 中 ， 上 默认 将 中 位 数 绝对 偏差 
的 规模 调整 到 与 均值 一 样 )。 这 并 不 奇怪 ， 因 为 标准 偏差 对 离 群 值 敏 感 。 

































































本 节 要 点 
。 方差 和 标准 偏差 是 日 常 最 广 为 使 用 的 变异 性 统计 量 。 
。 方差 和 标准 偏差 部 对 离 群 值 敏感 。 
。 更 稳健 的 度量 包括 偏离 均值 ( 百 分 位 数 、 四 分 位 距 ) 的 平均 (中 位 数 ) 绝对 偏差 。 











1.4.4 拓展 阅读 


。 David Lane 的 在 线 统计 学 资源 中 有 一 市 介绍 了 百 分 位 数 。 
。 Kevin Davenport 在 R-Bloggers 上 撰写 了 一 篇 有 用 的 文章 ， 介 绍 了 距离 中 位 数 的 各 种 偏 
差 以 及 它们 的 稳健 性 。 


1.5 ”探索 数据 分 布 


前 文 介绍 的 各 种 估计 量 都 是 通过 将 数据 总 结 为 单一 数值 ， 去 描述 数据 的 位 置 或 变异 性 。 这 
些 估计 量 可 用 于 探索 数据 的 整体 分 布 情况 。 

















主要 术语 
箱 线 图 
图 基 提 出 的 一 种 绘图 ， 是 一 种 快速 可 视 化 数据 分 布 情 况 的 方法 。 
同义词 : 箱 形 图 、 箱 须 图 


频数 表 

将 数值 型 数据 的 计数 情况 置 于 一 组 间隔 (组 距 ) 中 。 
直方 图 

对 频数 表 的 绘图 ， 其 中 x* 轴 是 组 距 ,y 轴 是 计数 (或 比例 )。 
密度 图 


直方 图 的 平滑 表示 ， 通 常 基于 某 种 核 密度 估计 。 











1.5.1 百 分 位 数 和 箱 线 图 
在 1.4.2 节 中 ， 我 们 介绍 了 如 何 使 用 百 分 位 数 测量 数据 的 分 布 情况 。 百 分 位 数 对 于 总 结 整 
体 分 布 也 十 分 有 用 。 报 告 中 经 常会 用 到 四 分 位 数 ( 即 第 25 百 分 位 数 、 第 50 百 分 位 数 和 第 
75 百 分 位 数 ) 和 十 分 位 数 ( 即 第 10 百 分 位 数 、 第 20 百 分 位 数 …… 第 90 百 分 位 数 )。 在 总 
结 数据 尾部 情况 〈 外 延 范围 ) 时 ， 百 分 位 数 尤 为 有 用 。 在 大 众 文 化 中 ， 也 有 百 分 之 一 阵营 
(one-percenter) 的 说 法 ， 它 指 的 是 拥有 99% 的 财富 的 富 人 。 
表 1-4 中 列 出 了 美国 一 些 州 的 谋杀 率 的 百 分 位 数 。 在 R 语言 中 ， 可 使 用 quantile 函数 生成 
百 分 位 数 。 

quantile(state[["Murder.Rate"]], p=c(.05, .25, .5, .75, .95)) 


5% 25% 50% 75% © 95% 
1.600 2.425 4.000 5.550 6.510 


表 1-4: 按 州 谋杀 率 的 百 分 位 数 


5% 25% 50% 75% 95% 
1.60 2.42 4.00 5.55 6.51 


上 例 中 ， 中 位 数 为 每 十 万 人 中 有 四 名 谋杀 犯 , 但 是 其 中 存在 一 些 变异 性 。 第 5 百 分 位 数 是 
1.60， 第 95 百 分 位 数 是 6.51。 

箱 线 图 是 由 图 基 提 出 的 一 种 快速 可 视 化 绘图 *， 它 基于 百 分 位 数 可 视 化 数据 的 分 布 。 图 1-2 
显示 了 按 州 划分 人 口 的 箱 线 图 ， 它 是 由 下 面 的 R 命令 生成 的 。 


boxplot(state[["Population"]]/1000000, ylab="Population (millions)") 







































































注 4: Tukey, John W. Exploratory Data Analysis. Pearson (1977). ISBN:978-0-201-07616-5. 
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图 1-2: 美国 各 州 人 口 的 箱 线 图 


箱子 的 顶部 和 底部 分 别 是 第 75 百 分 位 数 和 第 25 百 分 位 数 。 箱 内 的 水 平 线 表 示 的 是 中 位 
数 。 图 中 的 虚线 称 为 须 〈whisker)。 须 从 最 大 值 一 直 延 伸 到 最 小 值 ， 显 示 了 数据 的 极 差 。 
箱 线 图 有 多 种 变 体 , 具体 细节 可 参考 “R 文档 : boxplot 函数 ”等 资料 。 在 默认 情况 下 , 该 
R 函数 会 扩展 须 到 箱子 外 的 最 远 点 ， 但 不 会 超过 四 分 位 距 的 1.5 倍 。 其 他 软件 可 能 会 采用 
不 同 的 规则 。 在 须 外 的 所 有 数据 绘制 为 单个 点 。 


1.5.2 ”频数 表 和 直方 图 
变量 的 频数 表 将 该 变量 的 极 差 均匀 地 分 割 为 多 个 等 距 分 段 ， 并 给 出 落 在 每 个 分 段 中 的 数值 个 
数 。 在 RR 语言 中 ， 可 使 用 下 面 命 令 计算 美国 人 口 按 州 分 布 的 频数 表 ， 结 果 显 示 在 表 1-5 中 。 
breaks <- seq(from=min(state[["Population"]]), 
to=max(state[["Population"]]), length=11) 


pop_freq <- cut(state[["Population"]], breaks=breaks, 
right=TRUE, include.lowest = TRUE) 


















































table(pop_freq) 





注 5: R Core Team. “R: A Language and Environment for Statistical Computing,” R Foundation for Statistical 
Computing (2015). 
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表 1-5: 美国 人 口 按 州 分 布 的 频数 表 
组 距 编号 组 距 范围 计数 州 名 



































1 563 626 一 24 ”怀俄明 州 、 佛 蒙特 州 、 北 达科他 州 、 阿 拉 斯 加 州 、 南 达科他 州 、 特 拉 华 州 、 
4232 658 蒙 大 拿 州 、 罗 得 岛 州 、 新 罕 布什 尔 州 、 缅 因 州 、 夏 威 夷 州 、 爱 达 和 荷 州 、 内 
布 拉 斯 加 州 、 西 弗吉尼亚 州 、 新 墨西哥 州 、 内 华 达 州 、 犹 他 州 、 堪 萨 斯 州 、 
















































































阿肯色 州 、 密 西西 比 州 、 爱 荷 华 州 、 康 涅 狄 格 州 、 俄 克拉 和 荷 马 州 、 俄 勒 内 州 
» 4232 659 ~ 14 ”肯塔基 州 、 路 易 斯 安 那 州 、 南 卡罗来纳 州 、 阿 拉巴 马 州 、 科 罗拉 多 州 、 
7 901 691 明尼苏达 州 、 威 斯 康 辛 州 、 马 里 兰州 、 密 苏 里 州 、 田 纳西 州 、 亚 利 桑 那 
州 、 印 第 安 纳 州 、 马 萨 诸 塞 州 、 华 盛 顿 州 
3 7 901 692 ~ 6 吉 尼 亚 州 、 新 泽 西 州 、 北 卡罗来纳 州 、 乔 治 亚 州 、 密 歇 根 州 、 俄 雍 俄 州 
11 570 724 
4 11570725 ~ 一。 2 宾夕法尼亚 州 、 伊 利 诺 伊 州 
15 239 757 
5 15 239 758 ~ 1 ”佛罗里达 州 
18 908 790 
6 18 908 791 ~ 1 ”纽约 州 
22 577 823 
7 22 577 824 ~ 1 ”得克萨斯 州 
26 246 856 
8 26246857 一 0 
29 915 889 
9 29915890~ 0 
33 584 922 
10 33 584 923 一 1 “加利福尼亚 州 
37 253 956 


根据 2010 年 的 人 口 普查 ， 美 国人 口 最 少 的 州 是 怀俄明 州 ，563 626 人 ; 人 口 最 多 的 州 是 加 
利 福 尼 亚 州 ，37 253 956 人 。 极 差 为 37 253 956-563 626 = 36 690 330。 我 们 必须 将 极 差 划 
分 为 大 小 相等 的 组 距 ， 假 定 为 10 个 组 距 。 这 样 ， 每 个 组 距 的 宽度 为 3 669 033。 第 一 个 组 
距 的 范围 是 从 563 626 到 4 232 658。 最 后 一 个 组 距 的 范围 是 从 33 584 923 到 37 253 956， 
其 中 只 有 加 利 福 尼 亚 一 个 州 。 加 利 福 尼 亚 州 之 前 的 两 个 组 距 是 空 的 ， 直 到 得 克 萨 斯 州 。 添 
加 空 组 距 也 是 有 必要 的 ， 空 组 距 中 没有 值 ， 这 一 事实 是 很 有 价值 的 信息 。 尝 试 不 同 大 小 的 
组 距 也 是 非常 有 用 的 。 如 果 组 距 过 大 ， 那 么 就 会 隐藏 掉 分 布 的 一 些 重 要 特性 。 如 果 组 距 过 
小 ， 那 么 结果 就 会 过 于 颗粒 化 ， 失 去 查看 整体 图 的 能 


频数 表 和 百 分 位 数 都 是 通过 创建 组 距 总 结 数据 。 一 般 情况 下 ， 四 分 位 数 和 十 
分 位 数 在 每 个 组 距 中 具有 相同 的 计数 ， 但 是 每 个 组 距 的 大 小 不 同 ， 我 们 称 之 



































为 等 计数 组 距 。 与 之 相对 ， 如 果 频 数 表 在 每 个 组 距 中 的 计数 不 同 ， 我 们 称 之 
为 等 规模 组 距 。 





直方 图 是 频数 表 的 一 种 可 视 化 方法 ， 其 中 x 轴 为 组 距 ，y 轴 为 数据 的 计数 。 在 了 语言 中 ， 
要 创建 对 应 于 表 1-5 的 直方 图 ， 可 使 用 指定 了 breaks 参数 的 hist 函数 ， 命 令 如 下 。 


hist(state[["Population"]], breaks=breaks) 
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1-3 显示 了 上 面 命令 生成 的 直方 图 。 一 般 阅 来 ， 在 绘制 直方 图 时 应 注意 以 下 几 点 。 


。 空 组 距 也 应 包括 在 直方 图 中 。 

。 各 组 距 是 等 宽 的 。 

。 组 距 的 数量 (或 组 距 的 大 小 ) 取决 于 用 户 。 

。 各 条 块 相 互 紧 挨 着 ， 条 块 间 没 有 任何 空 险 ， 除 非 存在 空 组 距 。 
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1-3: 美国 各 州 人 口 的 直方 图 


统计 学 中 的 矩 “moment) 

在 统计 学 理论 中 ， 位 置 和 变异 性 分 别称 为 分 布 的 一 阶 矩 和 二 阶 和 拓 ， 而 分 布 的 
三 阶 算 和 四 阶 矩 分 别 被 称 为 偏 度 和 峰 度 。 偏 度 显 示 了 数据 是 偏向 较 小 的 值 还 
是 偏向 较 大 的 值 ， 峰 度 则 显示 了 数据 中 具有 极 值 的 倾向 性 。 通 常情 况 下 ， 我 
们 并 不 使 用 度量 去 测定 偏 度 和 峰 度 ， 而 是 通过 图 1-2 和 图 1-3 这 样 的 可 视 化 
方法 发 现 它们 。 


1.5.3 ”密度 估计 

密度 图 与 直方 图 有 关 ， 它 用 一 条 连续 的 线 显示 数据 值 的 分 布 情况 。 我 们 可 以 将 密度 图 看 作 
由 直方 图 平滑 得 到 的 ， 尽 管 它 通常 是 使 用 一 种 核 密度 估计 量 “ 从 数据 中 直接 计算 得 到 的 。 
1-4 将 密度 估计 情况 显示 在 直方 图 上 。 在 R 语言 中 ， 可 以 使 用 density 国 数 计算 密度 估计 。 


hist(state[["Murder .Rate"]], freq=FALSE) 
lines(density(state[["Murder .Rate"]]), lwd=3, col="blue") 

































































注 6: Duang, Tarn. “An introduction to kernel density estimation” (2001). 
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谋杀 率 〈 每 十 万 人 ) 








1-4: 美国 各 州 谋杀 率 的 密度 图 





与 图 1-3 中 的 直方 图 相 比 ， 图 1-4 的 不 同 之 处 在 于 y 轴 的 尺度 。 密 度 图 相当 于 按 比例 而 非 
按 计数 绘制 直方 图 。 因 此 在 R 语言 中 ， 我 们 需要 指定 参数 freq=FALSE。 
































密度 估计 

密度 估计 是 一 个 很 宽泛 的 话题 ， 在 统计 学 研究 中 具有 悠久 的 历史 。 事 实 
上 , 已 有 二 十 多 个 R 包 提供 了 计算 密度 估计 的 函数 。Henry Deng 和 Hadley 
Wickham 在 “Density estimation in R” "一 文中 对 R 包 进 行 了 综述 ， 其 中 特别 
推荐 了 ASH 和 KernSmooth。 对 于 许多 数据 科学 问题 ， 完 全 不 必 操 心 各 种 类 
型 的 密度 估计 ，R 语言 的 基本 函数 就 完全 够 用 了 。 














本 节 要 点 
频数 直方 图 在 y 轴 上 绘制 频数 计数 ， 在 xX 轴 上 绘制 变量 值 。 它 提供 了 对 数据 分 布 的 
频数 表 是 直方 图 中 频数 计数 的 表格 形式 。 
在 箱 线 图 中 ， 箱 子 的 顶部 和 底部 分 别 表 示 第 75 百 分 位 数 和 第 25 百 分 位 数 。 箱 线 图 
也 提供 了 数据 分 布 的 基本 情况 。 多 个 箱 线 图 通常 是 并 排 展示 的 ,以 便于 比较 分 布 情况 。 
密度 图 是 直方 图 的 一 种 平滑 表示 。 它 需要 一 个 基于 数据 估计 绘图 的 函数 (当然 也 可 
以 做 多 个 估计 ) 。 














主 7: Deng, H. and Wickham, H. “Density estimation in R” (2011). 
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1.5.4 ”拓展 阅读 

。 美国 纽约 州立 大 学 奥 斯 威 戈 分 校 的 一 位 教授 给 出 了 创建 箱 线 图 的 步 又 。 

。 Henry Deng 和 Hadley Wickham 在 其 论文 “Density estimation in R” 中 介绍 了 如 何在 RR 
语言 中 实现 密度 估计 。 

。 R-Bloggers 网 站 提供 了 一 篇 关于 及 语言 中 直方 图 的 有 用 文章 ， 其 中 介绍 了 如 何 选 取 箱 子 


大 小 等 元 素 。 
。 R-Bloggers 网 站 还 提供 了 一 些 介绍 R 语言 中 箱 线 图 的 类 似 文章 。 


1.6 探索 二 元 数据 和 分 类 数据 


使 用 基本 的 比例 或 百分比 ， 我 们 就 能 了 解 分 类 数据 的 情况 。 






























































主要 术语 

众 数 

数据 集中 出 现 次 数 最 多 的 类 别 或 值 。 
期 望 值 

如 果 类 别 可 以 与 一 个 数值 相关 联 ， 可 以 根据 类 别 的 出 现 概率 计算 一 个 平均 值 。 
条 形 图 

在 绘图 中 ， 以 条 形 表 示 每 个 类 别 出 现 的 频数 或 占 比 情况 。 
饼 图 

在 绘图 中 ， 圆 饼 中 的 一 个 扇形 部 分 表示 每 个 类 别 出 现 的 频数 或 占 比 情 况 。 











总 结 二 元 变量 的 情况 ， 或 总 结 只 有 几 个 类 别 的 分 类 变量 ， 是 非常 容易 实现 的 ， 我 们 只 需 计 
算出 数据 中 1 的 比例 ， 或 是 重要 类 别 出 现 的 比例 。 例 如 ， 表 1-6 给 出 了 按 延迟 原因 分 类 的 
航班 延迟 的 百分比 ， 数 据 来 自 于 美国 达拉斯 沃 斯 堡 机 场 自 2010 年 以 来 的 延迟 数据 。 延 迟 
原因 可 分 类 为 : 航空 公司 管理 原因 、 流 量 控制 (ATC) 系统 延误 、 天 气 原因 、 安 全 原因 以 
及 到 港 航班 延迟 。 

表 1-6: 美国 达拉斯 沃 斯 堡 机 场 的 航班 延迟 百分比 ， 按 延迟 原因 分 类 

航空 公司 管理 原因 ATC 天 气 原因 安全 原因 到 港 航班 延迟 

23.02 30.40 4.03 0.12 42.43 



























































条 形 图 是 在 各 大 媒体 上 常用 的 一 种 可 视 化 工具 ， 它 可 显示 单个 分 类 变量 的 总 体 情况 。 在 条 
形 图 中 ,x 轴 列 出 类 别 ，y 轴 表 示 频 数 或 比例 。 图 1-5 显示 了 美国 达拉斯 沃 斯 您 机 场 每 年 按 
延迟 原因 分 类 的 航班 延迟 情况 ， 它 是 使 用 R 语言 的 函数 barplot 生成 的 。 


barplot(as.matrix(dfw)/6, cex.axis=.5) 
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图 1-5: 美国 达拉斯 沃 斯 堡 机 场 航班 延迟 原因 的 条 形 图 


注意 ， 虽 然 条 形 图 非常 类 似 于 直方 图 ， 但 两 者 间 存 在 一 些 差异 。 在 条 形 图 中 ，x 轴 表 示 因 
子 变量 的 不 同类 别 ， 而 在 直方 图 中 , x 轴 以 数值 度量 的 形式 表示 某 个 变量 的 值 。 另 外 ， 在 
直方 图 中 ， 通 常 各 个 条 形 是 相互 紧 挨 着 显示 的 ， 条 形 间 的 间隔 表示 了 数据 中 未 出 现 的 值 ; 
而 在 条 形 图 中 ， 各 个 条 形 的 显示 是 相互 独立 的 。 

饼 图 是 条 形 图 的 一 种 替代 形式 。 统 计 学 家 和 数据 可 视 化 专业 人 员 通 常 不 使 用 饼 图 。 在 他 们 
看 来 ， 饼 图 在 视觉 上 缺乏 信息 量 *。 


如 何 将 数值 型 数据 转换 为 分 类 数据 

在 1.5.2 节 中 ， 我 们 通过 对 数据 创建 组 距 ， 生 成 了 频数 表 。 这 同时 也 将 数值 
型 数据 转换 为 排序 的 因子 。 就 此 而 言 ， 直 方 图 和 条 形 图 是 类 似 的 ， 除 非 条 
形 图 中 x 轴 上 的 类 别 不 是 有 序 的 。 将 数值 型 数据 转换 为 分 类 数据 是 非常 重要 


的 ， 它 是 数据 分 析 中 的 一 个 重要 步骤 。 该 转换 降低 了 数据 的 复杂 度 和 规模 ， 
并 有 助 于 发 现 特征 间 的 关系 ,尤其 是 在 分 析 的 初始 阶段 。 


1.6.1 众 数 
众 数 指数 据 中 出 现 最 频繁 的 一 个 或 一 组 数值 。 例 如 ， 美 国 达拉斯 沃 斯 堡 机 场 延迟 原因 的 众 
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注 8: Few, Stephen. “Save the Pies for Dessert.” Visual Intelligence Newsletter, Perceptual Edge (2007). 
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数 是 “到 港 航班 延迟 ”。 再 比如 ， 基 督 教 是 美国 绝 大 部 分 地 区 宗教 信仰 倾向 的 众 数 。 众 数 
是 分 类 数据 的 一 个 基本 汇总 统计 量 ， 通 常 不 用 于 数值 型 数据 。 


1.6.2 ”期 望 值 


分 类 数据 还 有 一 个 特殊 类 型 ， 即 数据 类 别 可 以 表示 成 (或 映射 到 ) 同一 尺度 的 离散 值 。 例 
如 ， 新 兴 云 技术 的 服务 商 提供 了 两 种 服务 ， 一 种 服务 的 费用 为 每 月 300 美元 ， 另 一 种 为 每 
月 50 美元 。 服 务 商 会 举办 免费 的 网 络 研讨 会 ， 以 发 现 一 些 潜 在 的 用 户 。 来 自 企 业 的 数据 
表明 ， 有 5% 的 研讨 会 参与 者 将 会 注册 每 月 300 美元 的 服务 ，15% 的 参与 者 会 注册 每 月 50 
美元 的 服务 ， 另 外 80% 的 人 将 不 会 注册 任何 服务 。 这 样 ， 我 们 可 以 将 数据 总 结 为 一 个 期 望 
值 ， 估 计 企 业 的 营业 收入 。 期 望 值 是 一 种 加 权 均 值 ， 权 重 使 用 的 是 类 别 出 现 的 概率 。 

期 望 值 的 计算 方法 如 下 。 


(1) 输出 值 乘 以 其 出 现 的 概率 。 

(2) 将 这 些 值 加 起 来 。 

就 上 面 给 出 的 云 服务 例子 而 言 ， 与 会 者 支付 服务 费 的 期 望 值 是 每 月 22.5 美元 ， 计 算 过 程 如 下 。 
期 望 值 = 0.05 x 300 + 0.15 x 50 + 0.80 x 0 = 22.5 

期 望 值 实际 上 是 一 种 加 权 均 值 ， 其 中 加 入 了 未 来 期 望 和 概率 权重 的 概念 ， 所 使 用 的 概率 

通常 是 根据 主观 判断 得 到 的 。 期 望 值 是 商业 估 值 和 资金 预算 中 的 一 个 基本 概念 ， 例 如 ， 

一 次 新 收购 在 未 来 5 年 中 利润 的 期 望 值 ， 或 者 一 个 诊所 的 新 患者 管理 软件 在 市 约 开支 上 

的 期 望 值 。 



















































































本 节 要 点 
。 分 类 数据 通常 按 比 例 总 结 ， 可 以 使 用 条 形 图 将 它 可 视 化 。 
。 类 别 用 于 表示 不 同类 型 的 事物 〈 例 如 苹果 和 桶 子 , 男 性 和 女性 )、 因 子 变量 的 等 级 〈 例 
如 低 、 中 和 高 ) ， 或 由 组 距 分 隔 的 数值 型 数据 。 
。 期 望 值 是 对 每 个 数值 与 该 数值 出 现 概率 的 乘积 求 和 , 通常 用 于 总 结 因子 变量 的 等 级 。 











1.6.3 ”拓展 阅读 
只 有 了 人 解 误导 性 图 ， 统 计 学 课程 才 是 完备 的 。 误 导 性 图 通常 涉及 条 形 图 和 人 饼 图 。 


1.7 相关 性 


无 论 是 在 数据 科学 还 是 研究 中 ， 很 多 建 模 项 目的 探索 性 数据 分 析 都 要 检查 预测 因子 之 间 的 
相关 性 ， 以 及 预测 因子 和 目标 变量 之 间 的 相关 性 。 给 定 变量 和 了 ， 它 们 均 有 测量 数据 。 
如 果 变 量 的 高 值 随 变量 了 的 高 值 的 变化 而 变化 ， 并 且 站 的 低 值 随 了 的 低 值 的 变化 而 变 
化 ， 那 么 我 们 称 和 和 了 是 正 相 关 的 。 如 果 蕊 的 高 值 随 了 的 低 值 的 变化 而 变化 ， 反 之 亦 然 ， 
那么 我 们 称 变量 和 了 是 负 相 关 的 。 
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主要 术语 
相关 系数 
一 种 用 于 测量 数值 变量 间 相 关 程 度 的 度量 ， 取 值 范围 在 -1 到 +1 之 间 。 
相关 和 矩阵 
将 变量 在 一 个 表格 中 按 行 和 列 显示 ， 表 格 中 每 个 单元 格 的 值 是 对 应 变量 间 的 相关 性 。 


散 点 图 
在 绘图 中 ,x 轴 显 示 一 个 变量 的 值 , 7 轴 显 示 另 一 个 变量 的 值 。 











考虑 下 面 两 个 变量 vl 和 v2。 它们 是 完全 相关 的 ， 因 为 每 个 变量 中 的 观测 值 都 是 按 从 小 到 
大 排列 的 。 








v1: {1, 2, 3} 

v2: {4, 5, 6} 
向 量 点 积 是 4+ 10 + 18 = 32。 现 在 我 们 尝试 将 其 中 一 个 变量 中 的 观测 值 随 机 重 排 ， 然 后 
重新 计算 二 者 的 点 积 ， 所 得 到 的 值 永远 不 会 大 于 32。 因 此 ， 我 们 可 以 将 向 量 点 积 作为 一 
个 度量 ， 即 做 任意 次 随机 排序 后 ， 向 量 点 积 都 不 会 大 于 32。( 事 实 上 ， 这 一 理念 是 与 基 
于 重 抽样 的 估计 密切 相关 的 ， 参 见 3.1 节 。) 尽管 如 此 ， 该 度量 值 并 非 很 有 意义 ， 除 非 用 
于 重 抽样 分 布 。 
点 积 的 一 种 标准 化 变 体 就 是 相关 系数 ， 该 度量 更 为 有 用 。 对 于 两 个 总 是 保持 同一 尺度 的 变 
量 ， 相 关系 数 给 出 了 两 者 间 相 关 性 的 估计 值 。 在 计算 皮尔 逊 相关 系数 时 ， 要 将 变量 v1 的 
平均 偏差 乘 以 变量 v2 的 平均 偏差 ， 再 除 以 标准 偏差 之 积 ， 计 算 公 式 如 下 。 



































,0 -70 -7 


(n—Ds.s, 


注意 ， 公 式 中 使 用 的 除数 是 n-1， 而 不 是 nx。 具体 细节 参见 1.4.1 节 中 关于 “自由 度 是 ， 
还 是 n-1? ”的 讨论 。 相 关系 数 的 值 总 是 位 于 +1 (完全 正 相 关 ) 和 -1 (完全 负 相 关 ) 之 
间 。0 表示 没有 相关 性 。 

变量 的 相关 性 可 以 是 非 线 性 的 。 在 这 种 情况 下 ， 相 关系 数 就 不 再 是 一 种 有 用 的 度量 。 比 
如 ， 税 率 和 收入 增加 之 间 的 关系 。 当 税率 由 零 开始 增加 时 ， 收 入 也 在 增加 。 但 是 税率 一 旦 
达到 一 定 高 的 水 平 并 逼近 100% 时 ， 这 时 避税 增加 了 ， 而 税收 则 实际 下 降 了 。 

表 1-7 被 称 为 相关 和 矩阵 ， 它 显示 了 自 2012 年 7 月 到 2015 年 6 月 间 的 电信 类 股票 每 日 收益 
间 的 相关 性 。 从 中 可 以 看 到 ， 股 票 Verizon (VZ) 与 ATT (T) 间 的 相关 性 最 高 ， 而 与 通 
信 基 础 设施 运营 企业 Level Three (LVLT) 间 的 相关 性 最 低 。 需 要 注意 的 是 ， 相 关 算 阵 的 
对 角 线 元 素 为 1 ( 即 一 支 股票 与 其 自身 的 相关 性 是 1) ， 并 且 对 角 线 上 下 对 称 位 置 的 信息 是 
元 余 的 。 
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表 1-7: 电信 类 股票 收益 间 的 相关 性 





下 CTL FTR VZ LVLT 
工 1.000 0.475 0.328 0.678 0.279 
CTL 0.475 1.000 0.420 0.417 0.287 
FTR 0.328 0.420 1.000 0.287 0.260 
VZ 0.678 0.417 0.287 1.000 0.242 
LVLT 0.279 0.287 0.260 0.242 1.000 





通常 ， 我 们 会 用 绘图 展示 表 1-7 这 样 的 相关 性 表 ， 实 现 对 多 个 变量 间 关 系 的 可 视 化 。 
图 1-6 显示 了 主要 ETF (交易 所 交易 资金 ) 每 日 收益 间 的 相关 性 。 使 用 R 语言 中 的 corrplot 
软件 包 ， 很 容易 创建 这 样 的 绘图 。 命 令 如 下 。 
etfs <- sp500_px[row.names(sp500_px)>"2012-07-01", 
sp500_sym[sp500_sym$sector=="etf", 'symbol']] 
library(corrplot) 
corrplot(cor(etfs), method = "ellipse") 


标准 普尔 500 指数 (SPY) 和 道琼斯 指数 (DIA) 的 ETF 具有 很 高 的 相关 性 。 类 似 地 ， 
主要 由 技术 企业 组 成 的 QQQ 和 XLK 指数 是 正 相 关 的 。 保 守 ETF， 例 如 金价 追踪 指数 
(GLD)、 原 油价 格 指数 (USO) 或 市 场 波动 指数 〈VXX) ， 倾 向 于 与 其 他 ETF 负 相关 。 椭 
圆 的 长 轴 方 向 显示 了 两 个 变量 是 正 相关 的 还 是 负 相 关 的 : 椭圆 长 轴 方 向 偏 右 ， 为 正 相 关 ， 
椭圆 长 轴 方 向 偏 左 ， 为 负 相 关 。 椭 圆 的 阴影 和 宽度 显示 了 关联 的 强度 ， 更 细 长 并 且 颜 色 更 
深 的 椭圆 ， 对 应 于 更 强 的 相关 性 。 





























































































ml 
hk ad dada 
XAGII ROIOIOIOGOI GS 
QQQ ZS/ 79 局 OIOOS 0 
SPY AI /77 区 OIOII 
DIA | PSA EE 
GLD 
os 下 下 下 国耻 YB 
WwWM Zaza OOCCOAA 一 
5 2209R2Z502G22222 | ， 
xLu O66 GEGEGEGU 计 -02 
XLB ULCAC BE FA 
XTL OOO6 全 一 全 BC 
XLV EUALAED OO O22@ -06 
xLP BELLA 2690/ 006 
XLF GOGOID) A A 
XLk BIAG OOO 






























































图 1-6:; ETF 每 日 收益 间 的 相关 性 





与 平均 值 和 标准 偏差 一 样 ， 相 关系 数 同样 对 数据 离 群 值 敏感 。 对 于 经 典 的 相关 系数 ， 有 的 
软件 包 提 供 了 一 些 稳健 的 蔡 代 方法 。 例 如 , R 语言 的 cor 函数 具有 trin 参数 ”, 设置 类 似 于 
截 尾 均值 的 计算 ”。 


其 他 相关 性 估计 量 

统计 学 家 早 就 提出 了 其 他 类 型 的 相关 系数 ， 例 如 斯 皮尔 曼 秩 相关 系数 
(Spearman’s rho) 、 肯 德尔 秩 相关 系数 (Kendall's tau) 等 基于 数据 秩 的 相关 
系数 。 由 于 这 些 估计 量 操作 的 是 秩 ， 而 非 数 据 值 ， 所 以 它们 对 离 群 值 稳健 ， 
并 可 以 处 理 特定 类 型 的 非 线性 。 但 是 在 探索 性 数据 分 析 中 ， 数 据 科 学 家 通常 
会 坚持 使 用 皮尔 逊 相关 系数 及 其 一 些 稳健 的 替代 者 。 多 数 情况 下 ， 基 于 秩 的 
估计 量 适用 于 小 规模 的 数据 集 以 及 特定 的 假设 检验 。 


1.7.1 散 点 图 
散 点 图 是 一 种 可 视 化 两 个 测量 数据 变量 间 关 系 的 标准 方法 。 在 散 点 图 中 ，x 轴 表 示 一 个 
变量 , y 轴 表 示 另 一 个 变量 ， 图 中 的 每 个 点 对 应 于 一 条 记录 。 图 1-7 显示 了 股票 ATT 和 
Verizon 日 收益 的 绘图 ， 用 下 面 的 R 命令 生成 。 

plot(telecom$T, telecom$VZ, xlab="T", ylab="VZ") 
从 图 中 可 以 看 到 ， 两 支 股票 的 日 收益 具有 强 正 相关 性 。 在 大 部 分 交易 日 中 ， 两 支 股票 都 保持 
同步 涨 跌 。 但 还 有 少数 几 个 交易 日 ， 其 中 一 支 股 票 明显 下 跌 而 另 一 支 股 票 上 涨 ， 或 是 相反 。 
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1-7: 股票 ATT 和 Verizon 日 收益 的 散 点 图 





注 9: 原文 即 是 如 此 。 事 实 上 ，R 的 cor 函数 并 不 提供 trim 参数 。 在 R 中 ， 有 多 种 方法 实现 对 离 群 值 稳健 的 
相关 性 计算 。 一 种 是 通过 设置 cor 函数 的 method 参数 ，method = "spearman" 或 method = "kendall"， 
原因 参见 本 节 知 识 点 “其 他 相关 性 估计 量 "*。 另 一 种 方法 是 使 用 其 他 R 软件 包 提供 的 函数 ， 例 如 ， 
robust 软件 包 的 covRob 函数 、MASS 软件 包 的 rln 函数 等 。 一 一 译 者 注 

注 10: R Core Team. “R: A Language and Environment for Statistical Computing,” R Foundation for Statistical 

Computing (2015). 
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本 节 要 点 

。 相关 系数 测量 了 两 个 变量 间 相 互 关联 的 程度 。 

。 如 果 变 量 v1 的 高 值 随 变量 V2 的 高 值 的 变化 而 变化 ， 那 么 V1 和 V2 是 正 相关 的 。 

。 如 果 变 量 v1 的 高 值 与 变量 v2 的 低 值 的 变化 相关 联 ， 那 么 V1 和 V2 是 负 相 关 的 。 

。 相关 系数 是 一 种 标准 化 的 度量 ， 因 此 其 值 的 范围 处 于 一 1 (完全 负 相 关 ) 和 +L ( 完 
全 正 相 关 ) 之 间 。 

。 如 果 相关 系数 为 0， 那 么 表示 两 个 变量 间 没 有 相关 性 。 但 是 注意 ， 数 据 的 随机 排列 
将 会 随机 生成 正 的 或 负 的 相关 系数 。 











1.7.2 ”拓展 阅读 
David Freedman、Robert Pisani 和 Roger Purves 合 著 的 Statistics (第 4 版 ) 对 相关 性 进行 了 
很 好 的 介绍 。 


1.8 探索 两 个 及 以 上 变量 


上 面 介 绍 的 估计 量 都 是 我 们 熟知 的 ， 比 如 均值 和 方差 。 计 算 这 些 佑 计量 时 ， 我 们 一 次 仅 
查看 一 个 变量 ， 这 被 称 为 单 变量 分 析 。 而 相关 性 分 析 (参见 1.7 节 ) 是 比较 两 个 变量 间 关 
系 的 一 种 重要 方法 ， 这 是 双 变 量 分 析 。 本 市 将 介绍 一 些 包含 两 个 及 以 上 变量 的 估计 量 及 绘 
图 ， 即 多 变量 分 析 。 

















主要 术语 

列 联 表 

一 种 对 两 个 或 两 个 以 上 分 类 变量 做 计数 的 表格 。 
六 边 形 图 

一 种 用 于 两 个 数值 变量 的 绘图 ， 图 中 使 用 六 边 形 表 示 记 录 的 组 距 。 
等 势 线 图 

一 种 类 似 于 地 形 图 的 绘图 ， 显 示 了 两 个 数值 型 变量 的 密度 情况 。 
小 提琴 图 

一 种 类 似 于 箱 线 图 的 绘图 ， 但 是 显示 的 是 密度 估计 量 。 

















与 单 变量 分 析 一 样 ， 双 变量 分 析 不 仅 计 算 汇 总 统计 量 ， 而 且 生 成 可 视 化 的 展示 。 双 变量 或 
多 变量 分 析 的 适用 类 型 取决 于 数据 本 身 ， 即 数据 是 数值 型 数据 还 是 分 类 数据 。 


1.8.1 en nde 

散 点 图 适用 于 绘制 数据 量 不 大 的 数值 型 数据 ， 六 边 形 图 和 等 势 线 也 可 以 绘制 数值 型 数据 间 
的 关系 。 Cs 的 绘图 ， 其 中 仅 包括 750 个 数据 点 。 对 于 具有 成 千 上 万 
乃至 上 百 万 条 记录 的 数据 集 ， 散 点 图 会 过 于 密集 ， 因 此 我 们 需要 另 一 种 方式 去 可 视 化 数据 
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间 的 关系 。 为 了 解释 这 个 问题 ， 我 们 以 数据 集 kc_tax 为 例 。 该 数据 集 包 括 了 对 华盛顿 州 
金 县 (King County) 房屋 的 纳税 评估 值 。 为 了 重点 关注 数据 中 的 主要 部 分 ， 我 们 使 用 了 
subset 函数 ， 去 除了 数据 集中 价格 非常 高 并 且 面 积 特别 小 或 特别 大 的 房屋 。 命 令 如 下 。 


kc_tax0 <- subset(kc_ tax, TaxAssessedValue < 750000 & SqFtTotLiving>100 & 
SqFtTotLiving<3500) 





























nrow(kc_tax0) 
[1] 432693 


图 1-8 是 六 边 形 图 ， 它 显示 了 金 县 的 房屋 面积 (平方 英尺 ) 与 纳税 评估 值 间 的 关系 。 六 边 
形 图 绘制 的 并 非 数 据点 ， 这 样 会 导致 图 中 显示 成 一 片 黑 云 ， 我 们 将 记录 分 组 为 六 边 形 的 组 
距 ， 并 用 不 同 的 颜色 绘制 各 个 六 边 形 ， 以 显示 每 组 中 的 记录 数 。 在 图 中 可 清晰 地 看 到 ， 房 
屋面 积 (平方 英尺 ) 和 纳税 评估 值 间 是 正 相关 的 。 图 中 值得 关注 的 一 个 特征 是 ， 在 主要 云 
上 ， 隐 含有 另 一 片 云 。 这 片 云 所 表示 的 房屋 虽然 与 主要 云 所 表示 的 房屋 具有 相同 的 面积 ， 
但 是 纳税 评估 值 更 高 。 

图 1-8 的 绘图 是 使 用 R 语言 的 ggplot2 软件 包 生 成 的 。 该 软件 包 是 由 Hadley Wickham 研发 
的 "。 目 前 有 多 个 新 软件 库 提供 了 数据 的 深层 探索 性 可 视 化 分 析 功 能 ，ggplot2 就 是 其 中 之 
一 ， 参 见 1.8.4 节 。 



























































ggplot(kc_tax0, (aes(x=SqFtTotLiving, y=TaxAssessedValue))) + 
stat_binhex(colour="white") + 
theme_bw() + 
scale_fill_gradient(low="white", high="black") + 
labs(x="Finished Square Feet", y="Tax Assessed Value") 
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图 1-8: 纳税 评估 值 与 房屋 面积 的 六 边 形 图 





注 11: Wickham, Hadley. geplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York (2009). ISBN: 
978-0-387-98140-6. 
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1-9 是 在 散 点 图 上 绘制 了 一 个 等 势 线 图 ， 可 视 化 了 两 个 数值 型 变量 之 间 的 关系 。 等 势 线 
在 本 质 上 就 是 两 个 变量 的 地 形 图 。 每 条 等 势 线 表示 特定 的 密度 值 ， 并 随 着 接近 “顶峰 ”而 
增 大 。 图 1-9 显示 了 类 似 于 图 1-8 中 的 信息 ， 即 在 主峰 的 “ 北 侧 ” 存 在 第 二 个 峰 。 图 1-9 
也 是 使 用 ggplot2 创建 的 ， 其 中 使 用 了 自 带 的 geom_density2d 函数 。 
ggplot(kc_tax0, aes(SqFtTotLiving, TaxAssessedValue)) + 
theme_bw() + 
geom_point( alpha=0.1) + 


geom_density2d(colour="white") + 
labs(x="Finished Square Feet", y="Tax Assessed Value") 
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1-9: 纳税 评估 值 与 房屋 面积 间 关 系 的 等 势 线 图 

还 有 其 他 一 些 类 型 的 图 表 ， 比 如 热力 图 等 ， 也 可 显示 两 个 数值 型 变量 间 的 关系 。 热 力图 、 
六 边 形 图 和 等 势 线 图 所 给 出 的 都 是 二 维 密度 的 可 视 化 表示 。 它 们 本 质 上 对 应 的 是 直方 图 和 
密度 图 。 

1.8.2 ”两 个 分 类 变量 

对 于 总 结 两 个 分 类 变量 ， 列 联 表 十 分 有 用 ， 它 是 一 种 按 分 类 进行 计数 的 表 。 表 1-8 显示 了 
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一 个 列 联 表 ， 它 表示 了 个 人 信贷 等 级 与 贷款 情况 之 间 的 关系 。 数 据 来 自 美国 P2P 借贷 业务 
的 引领 者 Lending Club 公司 。 信 贷 等 级 从 A (高 等 级 ) 到 G ( 低 等 级 ) 不 等 ， 贷 款 情况 包 
括 付 清 、 流 动 、 延 期 和 销 账 〈 预 期 无 法 收回 剩余 贷款 )。 该 表 显 示 了 计数 情况 和 按 行 的 百 
分 比 情况 。 与 低 信贷 等 级 贷款 相 比 ， 高 信贷 等 级 贷款 的 延期 或 销 账 的 百分比 非常 低 。 列 联 
表 中 可 以 只 统计 计数 的 情况 ， 也 可 以 包括 列 百 分 比 和 总 百分比 。 最 常用 的 列 联 表 创 建 工 具 
可 能 是 Excel 中 的 数据 透视 表 。 在 R 语言 中 ， 可 以 使 用 descr 软件 包 中 的 CrossTable 函数 
生成 列 联 表 。 例 如 ， 表 1-8 是 使 用 下 面 的 代码 生成 的 。 
library(descr) 


x_tab <- CrossTable(lc loans$grade, lc_loans$status, 
prop.c=FALSE, prop.chisq=FALSE, prop.t=FALSE) 












































表 1-8: 信贷 等 级 和 贷款 状态 的 列 联 表 





信贷 等 级 付 清 流动 延期 销 账 合计 
A 20 715 52 058 494 1588 74 855 
0.277 0.695 0.007 0.021 0.161 
B 31 782 97 601 2149 5384 136 916 
0.232 0.713 0.016 0.039 0.294 
C 23 773 92 444 2895 6163 125 275 
0.190 0.738 0.023 0.049 0.269 
D 14 036 55 287 2421 5131 76 875 
0.183 0.719 0.031 0.067 0.165 
E 6089 25 344 1421 2898 35 752 
0.170 0.709 0.040 0.081 0.077 
F 2376 8675 621 1556 13 228 
0.180 0.656 0.047 0.118 0.028 
G 655 2042 206 419 3322 
0.197 0.615 0.062 0.126 0.007 
合计 99 426 333 451 10 207 23 139 466 223 


1.8.3 分 类 数据 和 数值 型 数据 


一 些 数值 型 数据 是 根据 分 类 
简单 的 方式 是 使 用 箱 线 图 (参见 1.5.1 节 )。 例 如 ， 我 们 可 


的 百分比 。 





变量 进行 分 组 的 。 要 可 视 化 地 比较 此 类 数据 的 分 布 情况 ， 一 种 
要 查看 各 航空 公司 航班 延误 
图 1-10 显示 了 在 一 个 月 内 由 于 航空 公司 原因 所 导致 航班 延误 的 百分比 。 


能 想 





boxplot(pct_carrier delay ~ airline, data=airline_stats, ylim=c(0, 50)) 
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图 1-10: 由 于 航空 公司 原因 所 导致 航班 延误 百分比 的 箱 线 图 





从 图 中 可 以 看 到 ， 阿 拉 斯 加 航空 公司 (Alaska) 脱颖而出 ， 延 迟 最 少 ， 而 美国 航空 公司 
(American) 的 延迟 最 多 。 美 国航 空 公司 的 下 四 分 位 数 要 高 于 阿拉 斯 加 航空 公司 的 上 四 分 
位 数 。 
小 提琴 图 是 箱 线 图 的 一 种 增强 表示 , 最 早 是 由 Hintze 和 Nelson 提出 的 “。 它 以 了 轴 为 密度 ， 
绘制 密度 估计 量 的 情况 。 绘 图 中 对 密度 做 镜像 并 反 转 ( 即 核 密度 函数 )， 并 填充 所 生成 的 
形状 ， 由 此 生成 了 一 个 类 似 小 提琴 的 图 形 。 小 提琴 图 的 优点 是 可 以 显示 分 布 的 细微 之 处 ， 
而 这 种 细微 之 处 在 箱 线 图 中 是 难以 察觉 的 。 另 一 方面 ， 箱 线 图 能 更 清楚 地 显示 数据 中 的 离 
群 值 。 可 使 用 ggptLot2 软件 包 中 的 geom_viotLin 函数 创建 小 提琴 图 ， 命 令 如 下 。 

ggplot(data=airline_ stats, aes(airline, pct_ carrier delay)) + 

ylim(0, 50) + 


geom violin() + 
labs(x="", y="Daily % of Delayed Flights") 


生成 的 图 如 图 1-11 所 示 。 小 提琴 图 显示 阿拉 斯 加 航空 公司 的 分 布 聚集 于 0 附近， 美国 达 美 
航空 公司 (Delta) 稍 逊 之。 如 果 使 用 箱 线 图 ， 这 一 现象 并 不 明显 。 如 果 在 绘图 命令 中 添加 
geom_boxplot 函数 ， 那 么 就 可 以 组 合 显示 小 提琴 图 和 箱 线 图 。 如 果 使 用 了 适当 的 颜色 ， 那 
么 显示 效果 会 更 好 。 


















































































































































注 12: Hintze, J. and Nelson, “R. Violin Plots: A Box Plot-Density Trace Synergism.” The American Statistician 
52.2 (May 1998): 181-184. 
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图 1-11: 由 于 航空 公司 原因 所 导致 航空 延误 的 百分比 ， 图 中 组 合 显示 了 箱 线 图 和 小 提琴 图 


1.8.4 ”多 个 变量 的 可 视 化 


比较 两 个 变量 所 用 的 图 表 类 型 ， 例如 散 点 图 、 六 边 形 图 和 箱 线 图 ， 完 全 可 以 通过 条 件 
(conditioning) 这 一 概念 扩展 到 多 个 变量 。 例 如 ， 前 面 的 图 1-8 中 显示 了 房屋 面积 (单位 : 
平方 英尺 ) 和 纳税 评估 值 之 间 的 关系 。 我 们 发 现 ， 一 些 房屋 的 每 平方 英尺 纳税 评估 值 看 上 
去 更 高 。 进 一 步 研究 后 ， 图 1-12 根据 邮政 编码 分 别 绘制 了 数据 ， 以 比较 地 段 对 纳税 评估 
值 的 影响 。 从 这 样 的 图 形 中 ， 我 们 可 以 更 清晰 地 看 到 ， 一 些 地 区 (如 邮编 98112 和 98105 ) 
的 纳税 评估 值 比 其 他 地 区 (如 邮编 98108 和 98057) 更 高 。 正 是 这 种 差异 性 导致 了 在 图 1-8 
中 观察 到 的 聚 类 情况 


我 们 使 用 ggplot2 以 及 分 组 (facet) 的 概念 创建 了 图 1-12。 分 组 也 被 称 为 条 件 变量 ， 在 本 
例 中 就 是 邮政 编码 。 


ggplot(subset(kc_tax0, ZipCode %in% c(98188, 98105, 98108, 98126)), 
aes(x=SqFtTotLiving, y=TaxAssessedValue)) + 
stat_binhex(colour="white") + 
theme_bw() + 
scale_fill_ gradient( low="white", high="blue") + 
labs(x="Finished Square Feet", y="Tax Assessed Valuye") + 
facet_ wrap("ZipCode") 
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图 1-12: 根据 邮政 编码 分 组 绘制 纳税 评估 值 与 房屋 面积 的 关系 


“条 件 变 量 ” 这 一 概念 最 早出 现在 图 形 系统 的 格子 图 中 。 它 是 由 贝尔 实验 室 的 里 克 * 贝克 
尔 、 比 尔 ， 克利 夫 兰 等 人 提出 的 “。 现 在 这 一 理念 已 扩展 到 各 种 现代 图 形 系统 中 , 包括 语 
言 的 lattice* 和 ggplot2 软件 包 ， 以 及 Python 的 Seaborn” 和 Bokeh” 模块 。 条 件 变量 也 是 
Tableau 和 Spotfire 等 商业 智能 平台 的 组 成 部 分 。 随 着 计算 能 力 的 提升 ， 现 代 可 视 化 平台 早 
已 超越 了 探索 性 数据 分 析 最 初 的 低 水 平 。 但 是 多 年 前 提出 的 关键 理念 和 工具 依然 是 这 些 系 
统 的 基础 。 



































本 节 要 要 点 


到 ees 它们 支持 以 图 形 方式 同时 查看 两 个 数值 型 变量 ， 
受 数 据 规模 的 影响 。 

人 re 变量 计数 情况 的 标准 工具 。 

。 箱 线 图 和 小 提琴 图 允许 根据 分 类 变量 绘制 数值 型 变量 。 














注 13: Becker, R., Cleveland, W, Shyu, M. and Kaluzny, S.“A Tour of Trellis Graphics” (1996). 

注 14: Sarkar, Deepayan. Lattice: Multivariate Data Visualization with R. Springer (2008). ISBN 978-0-387-75968-5. 
注 15: “Seaborn: statistical data visualization”(2015). 

注 16: Bokeh Development Team. “Bokeh: Python library for interactive visualization” (2014). 





1.8.5 ”拓展 阅读 


。 Benjamin Baumer、Daniel Kaplan 和 Nicholas Horton 合 著 的 Modern Data Science with R 
一 书 对 “图 形 的 语法 ”(grammar for graphics， 即 ggplot 软件 包 名 中 的 “gg”) 进行 了 很 
好 的 介绍 。 

。 Hadley Wickham 撰写 的 《ggplot2: 数据 分 析 与 图 形 艺 术 》 一 书 提供 了 一 些 很 好 的 资源 。 
Hadley Wickham 是 ggplot2 的 创建 者 。 

。 Josef Fruehwald 提供 了 ggpLot2 指南 的 Web 资源 。 


1.9 ”小 结 


约翰 图 基 开 创 了 探索 性 数据 分 析 。 随 着 探索 性 数据 分 析 的 发 展 ， 由 统计 学 所 确立 的 基础 
业已 成 为 数据 科学 领域 的 先导 。 对 于 任意 基于 数据 的 项 目 ， 最 重要 的 第 一 步 都 是 查看 数 
据 ， 这 正 是 探索 性 数据 分 析 的 关键 理念 所 在 。 通 过 总 结 并 可 视 化 数据 ， 我 们 可 以 对 项 目 获 
得 有 价值 的 洞悉 和 理解 。 


本 章 回 顾 了 一 些 基本 概念 ， 从 位 置 估计 和 变异 性 估计 等 简单 度量 ， 到 图 1-12 这 样 的 探索 
多 个 变量 间 关系 的 复杂 展示 。 借 助 开源 社区 提供 的 多 种 技术 和 工具 集 ， 并 结合 R 和 Python 
等 语言 的 表达 能 力 ， 我 们 得 以 建立 丰富 多 样 的 数据 探索 和 分 析 方式 。 探 索性 分 析 应 成 为 所 
有 数据 科学 项 目的 基石 。 
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第 2 章 


数据 和 抽样 分 布 





不 少 人 误 以 为 大 数据 时 代 意 味 着 抽样 时 代 的 终结 。 事 实 上 ， 抽 样 能 够 有 效 地 操作 一 组 数 
据 ， 并 且 可 以 最 小 化 偏差 。 在 大 数据 时 代 ， 涌 现 出 了 大 量 质量 不 一 、 相 关 性 各 异 的 数据 ， 
这 增强 了 人 们 对 于 抽样 的 需求 。 其 至 在 大 数据 项 目 中 ,通常 也 会 使 用 抽样 生成 并 导出 预测 
模型 。 抽 样 还 被 广泛 用 于 定价 、Web 处 理 等 各 种 检验 。 


本 章 的 理念 可 以 用 图 2-1 的 模式 表述 。 图 中 左 侧 表示 总 体 ， 统 计 学 假设 总 体 遵 循 一 个 弟 在 
的 未 知 分 布 。 图 的 右 侧 表示 抽样 数据 及 其 经 验 分 布 ， 这 是 我 们 唯一 可 用 的 。 要 想 根据 左 侧 
的 图 获得 右 侧 的 图 ， 我 们 需要 做 抽样 ， 图 中 用 箭头 表示 。 传 统统 计 学 关注 的 主要 是 图 的 左 
侧 部 分 ， 即 如 何 对 总 体 运 用 一 些 基 于 强 假设 的 理论 。 现 代 统计 学 已 将 关注 点 转移 到 图 的 右 
侧 部 分 ， 因 而 也 不 再 需要 做 出 假设 。 
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图 2-1: 总 体 与 样本 
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一 般 而 言 ， 数 据 科学 家 并 不 需要 操心 图 中 左 侧 ( 即 总 体 ) 的 理论 本 质 ， 而 是 应 聚焦 于 抽样 
过 程 和 手中 的 数据 。 但 有 一 些 特定 的 情况 仍 需 要 他 们 关注 。 有 些 数 据 是 由 可 建 模 的 物理 过 
程 生成 的 。 最 简单 的 例子 就 是 遵循 二 项 分 布 的 抛 硬币 过 程 。 现 实生 活 中 的 所 有 二 项 分 布 ， 
例如 是 否 购买 、 是 否 存在 欺诈 、 是 否 点 击 等 ， 都 可 以 有 效 地 建 模 为 一 次 抛 硬币 的 过 程 。 当 
然 ， 一 般 还 需要 对 硬币 正面 向 上 的 概率 做 一 定 的 修正 。 在 此 类 情况 下 ， 我 们 可 以 通过 对 总 
体 的 理解 ， 从 中 获得 一 些 额外 的 洞 见 。 


2.1 ”随机 抽样 和 样本 偏差 


样本 是 大 型 数据 集 的 一 个 子 集 ， 统 计 学 家 通常 将 大 型 数据 集 称 为 总 体 。 统 计 学 中 的 总 体 不 
同 于 生物 学 中 所 指 的 总 体 。 在 统计 学 中 ， 总 体 指 的 是 大 量 确实 存在 的 数据 ， 但 有 时 也 可 以 
是 一 个 理论 上 的 或 者 构想 得 到 的 数据 集 。 






































主要 术语 
样本 
大 型 数据 集 的 一 个 子 集 。 


一 个 大 型 数据 集 ， 或 是 一 个 构想 的 数据 集 。 


N (或 n) 

一 般 用 NN 表示 总 体 的 规模 ，n 表示 样本 的 规模 。 
随机 抽样 

从 总 体 中 随机 抽取 元 素 到 样本 中 。 


分 层 抽 样 
对 总 体 分 层 ， 并 在 每 层 中 做 随机 抽样 。 


简单 随机 抽样 
在 不 对 总 体 分 层 的 情况 下 ， 做 随机 抽样 所 得 到 的 样本 。 


样本 偏差 
样本 对 总 体 做 出 了 错误 的 解释 。 














在 随机 抽样 过 程 中 ， 以 均等 的 机 会 从 总 体 的 所 有 可 用 成 员 中 抽取 ， 得 到 一 个 样本 。 随 机 抽 
样 生成 的 样本 被 称 为 简单 随机 样本 。 抽 样 可 以 是 有 放 回 的 ， 即 可 以 在 每 次 抽取 后 将 所 抽取 
的 观测 值 放 回 到 总 体 中 ， 并 可 被 随后 的 抽取 重新 选中 。 抽 样 也 可 以 是 无 放 回 的 ， 即 一 个 观 
测 值 一 旦 被 抽取 ， 就 不 会 参与 随后 的 抽取 。 


一 般 情况 下 ， 我 们 在 做 估计 或 是 根据 样本 拟 合 模 型 时 ， 数 据 质量 的 影响 要 大 于 数据 规模 的 
影响 。 在 数据 科学 中 ， 数 据 质量 涉及 数据 的 完整 性 、 格 式 的 一 臻 性、 整洁 性 以 及 单个 数据 
点 的 准确 性 。 在 统计 学 中 ， 数 据 质量 还 涉及 抽样 的 代表 性 这 一 概念 。 


一 个 经 典 的 例子 是 1936 年 美国 《文学 文摘 》 杂 志 发 起 的 一 次 民意 调查 ， 该 调查 的 结果 预 
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测 世 尔 弗 . 兰 登 将 在 美国 总 统 选举 中 战胜 富兰克林 罗斯福。《 文 学 文摘 》 在 当时 是 一 份 市 
场 份额 领先 的 杂志 ， 此 次 问卷 调查 的 对 象 是 该 期 刊 的 所 有 订阅 者 ， 还 额外 考虑 了 一 些 人 ， 
规模 合计 超过 1000 万 人 ， 并 预测 兰 登 将 取得 压倒 性 胜利 。 一 周 后 ， 盖 洛 普 民 意 调 查 的 创 
始 人 乔治 . 盖 洛 普 也 发 起 了 一 次 民意 调查 ， 调 查 对 象 只 有 约 2000 人 ， 但 准确 地 预测 了 罗斯 
福 会 取得 胜利 。 两 次 调查 的 差异 在 于 调查 对 象 的 选择 。 


《文学 文摘 》 侧 重 于 调查 对 象 的 数量 ， 忽 视 了 选择 方法 。 他 们 的 调查 对 象 是 那些 社会 经 济 地 
位 相对 较 高 的 人 群 〈 即 该 杂志 的 订阅 者 ， 以 及 那些 在 当时 有 电话 和 汽车 等 奢侈 品 的 人 ， 他 
们 是 市 场 营 销 人 员 的 目标 )。 这 导致 了 调查 结果 中 存在 样本 偏差 ， 即 样本 以 某 种 有 意义 的 非 
随机 方式 ， 不 同 于 其 想 要 代表 的 大 规模 总 体 。 非 随机 性 (nonrandom) 这 一 术语 非常 重要 ， 
因为 几乎 任何 样本 都 无 法 准确 地 表示 总 体 ， 即 便 是 随机 抽样 也 做 不 到 。 一 旦 差异 具有 意义 ， 
就 会 发 生 样本 偏差 。 如 果 其 他 样本 也 使 用 了 同样 的 抽取 方式 ， 那 么 也 会 存在 样本 偏差 。 


自选 择 抽样 偏差 (self-selection sampling bias) 

在 Yelp 等 社交 媒体 上 ， 我 们 能 看 到 一 些 对 餐馆 、 酒 店 、 咖 啡 馆 等 的 评论 。 
这 些 评论 容易 产生 偏差 ， 因 为 提交 评论 的 人 并 非 随机 选取 的 。 他 们 写 评论 是 
基于 一 定 的 出 发 点 的 ， 这 将 导致 自选 择 偏差 的 产生 。 有 意向 撰写 评论 的 人 ， 
很 可 能 是 那些 获得 了 不 好 体验 的 人 ， 也 可 能 是 一 些 与 商家 有 关联 的 人 ， 或 者 
就 是 与 没有 发 表 评 论 者 不 同 的 一 类 人 。 注 意 ， 在 将 一 个 商家 与 类 似 的 商家 做 
对 比 时 ， 尽 管 自选 择 样 本 或 许 并 未 可 靠 地 表明 事情 的 真实 状态 ， 但 它们 依然 
是 更 为 可 靠 的 ， 因 为 对 比 的 双方 都 存在 同样 的 自选 择 偏差 。 


2.1.1 偏差 

统计 偏差 是 一 些 系统 性 的 测量 误差 或 抽样 误差 ， 它 是 在 测量 或 抽样 过 程 中 产生 的 。 我 们 应 
严格 区 分 由 随机 选取 所 导致 的 误差 和 由 偏差 所 导致 的 误差 。 以 开 枪 射击 一 个 目标 这 一 物理 
过 程 为 例 。 并 非 每 次 射击 都 能 击 中 绝对 意义 上 的 丢 心 ， 或 者 说 很 少 能 击 中 。 虽 然 无 偏 过 程 
也 会 产生 误差 ， 但 所 产生 的 误差 是 随机 的 ， 并 且 不 会 强烈 地 趋向 于 任意 方向 ， 如 图 2-2 所 
示 。 图 2-3 给 出 的 是 一 个 有 偏 过 程 的 结果 ， 在 x 轴 和 yy 轴 方 向 上 ， 不 仅 存在 着 随机 误差 ， 
还 存在 着 偏差 。 射 击 点 趋向 于 落 在 右上 象限 部 分 。 


























































































































图 2-2: 一 支 瞄准 正常 的 枪 射击 情况 的 散 点 图 
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图 2-3: 一 支 瞄 准 有 偏差 的 枪 射击 情况 的 散 点 图 








偏差 有 多 种 形式 ， 它 也 许 是 可 以 观察 到 的 ， 也 可 能 是 不 可 见 的 。 如 果 结 果 确实 表示 存在 偏 
差 ( 例 如， 通过 参考 基准 或 实际 值 )， 这 通常 表明 我 们 指定 了 不 正确 的 统计 学 或 机 器 学 习 
模型 ， 或 是 漏 掉 了 某 个 重要 的 变量 。 


2.1.2 ”随机 选择 

为 了 避免 出 现 导致 《文学 文摘 》 预 测 兰 登 在 选举 中 战胜 罗斯 福 这 样 的 样本 偏差 问题 ， 乔 治 … 
盖 洛 普 (图 2-4) 采用 了 一 种 更 科学 的 方法 来 得 到 可 以 代表 美国 选民 的 样本 。 如 今 ， 实 现 
样本 代表 性 的 方法 有 很 多 ， 所 有 这 些 方法 的 核心 都 是 随机 抽样 。 























图 2-4: 乔治 ' 盖 洛 普 ， 因 《文学 文摘 》 的 “大 数据 ”失败 而 名 声 大 噪 


随机 抽样 并 不 容易 实现 ， 关 键 在 于 如 何 正确 地 定义 可 访问 的 总 体 。 假 设 我 们 想 要 生成 客户 
的 一 个 代表 性 形象 ， 并 且 需 要 执行 一 次 试点 客户 调查 。 调 查 要 具有 代表 性 ， 但 是 所 需 的 工 
作 强 度 极 大 。 


首先 ， 我 们 需要 定义 客户 是 谁 。 我 们 可 以 选择 购买 金额 大 于 零 的 所 有 客户 记录 。 那 么 是 否 
要 考虑 过 去 所 有 的 客户 ? 是 否 要 考虑 退 款 情况 ? 是 否 要 考虑 内 部 测试 购买 情况 ? 是 否 需要 
考虑 经 销 商 、 结 算 代 理 人 和 客户 ? 
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下 一 步 ， 我 们 要 指定 抽样 过 程 。 抽 样 可 以 是 “随机 选取 100 名 客户 ”。 当 涉及 对 某 个 数据 
流 的 抽样 时 ， 如 实时 客户 交易 、Web 访问 者 等 ， 时 间 上 的 考虑 很 重要 ， 例 如 工作 日 上 午 十 
点 的 Web 访问 者 可 能 不 同 于 周末 晚上 十 点 的 Web 访问 者 。 


采用 分 层 抽 样 时 ， 我 们 将 总 体 分 成 多 个 层 ， 并 在 每 一 层 中 做 随机 抽样 。 例 如 ， 在 一 次 政治 
民意 调查 中 ， 可 能 需要 了 解 美国 白人 、 非 毅 美 国人 和 拉美 毅 美 国人 的 选举 倾向 。 如 果 我 们 
对 总 体 做 一 次 基本 的 随机 抽样 ， 得 到 的 样本 中 可 能 非 毅 和 拉美 毅 美 国人 人 数 过 少 。 因 此 在 
分 层 抽 样 中 ， 需 要 对 不 同 的 层 赋 予 不 同 的 权重 ， 以 生成 对 等 的 抽样 规模 。 


2.1.3 ”数据 规模 与 数据 质量 : 何 时 规模 更 重要 


在 大 数据 时 代 ， 令 人 惊讶 的 是 ， 有 时 数据 规模 越 小 ， 结 果 反 而 更 好 。 在 随机 抽样 上 人 花费 些 
时 间 和 精力 ， 不 仅 可 以 减 小 偏差 ， 还 能 让 我 们 更 关注 于 数据 探索 和 数据 质量 。 例 如 ， 在 缺 
失 的 数据 和 离 群 值 中 ， 可 能 包含 了 一 些 有 用 的 信息 。 要 从 上 百 万 条 记录 中 查找 缺失 值 或 评 
佑 离 群 值 ， 成 本 可 能 会 非常 高 ， 但 是 对 于 具有 数 千 条 记录 的 样本 ， 这 些 事情 则 是 完全 可 行 
的 。 此 外 ， 如 果 数 据 量 过 大 ， 也 无 法 开展 数据 绘图 和 人 工 检测 。 


那么 ， 在 什么 情况 下 需要 大 量 的 数据 呢 ? 


Google 检索 查询 请 求 ， 就 是 一 个 体现 大 数据 价值 的 经 典 场景 ， 其 中 数据 不 仅 规模 很 大 ， 而 
且 十 分 稀 足 。 如 果 以 每 个 词 为 列 、 每 个 搜索 查询 为 行 ， 这 样 可 以 构建 一 个 矩阵 。 和 矩阵 中 
每 个 单元 的 值 为 0 或 1， 表示 相应 的 查询 中 是 否 包含 对 应 的 词汇 。 我 们 的 目标 是 对 一 个 查 
询 给 出 一 个 最 优 的 搜索 目标 。 但 是 ， 英 语 中 有 15 万 多 个 单词 ， 而 Google 每 年 会 处 理 大 约 
一 万 亿 次 查询 。 这 生成 了 一 个 规模 非常 巨大 的 矩阵， 和 矩阵 中 大 量 单 元 的 值 为 0。 


这 是 一 个 真正 的 大 数据 问题 。 只 有 积累 了 如 此 巨大 规模 的 数据 后 ，Google 才能 为 大 部 分 查 
询 提供 有 效 的 搜索 结果 。 积 累 的 数据 越 多 ， 查 询 结 果 越 好 。 对 于 一 些 常 见 的 搜索 词 ， 并 不 
存在 问题 ， 因 为 对 于 在 某 一 时 刻 非常 流行 的 主题 ， 我 们 可 以 很 快 发 现 有 效 数据 。 而 如 何 对 
多 种 多 样 的 检索 查询 返回 详细 且 有 用 的 结果 ， 甚 至 包括 那些 出 现 频数 只 有 百 万 分 之 一 的 查 
询 ， 这 正 是 现代 搜索 技术 的 真正 价值 所 在 。 


例如 ， 我 们 要 查询 短语 “里 奇 " 里 卡 多 和 小 红 帽 ”。 在 互联 网 出 现 的 早期 ， 查 询 的 返回 结 
可 能 是 乐队 领袖 里 奇 . 里 卡 多 、 他 主演 的 电视 剧 《 我 爱 露 西 》， 以 及 儿童 剧 《 小 红 帽 》。 但 
现代 搜索 引擎 已 具有 数 万 亿 条 查询 检索 记录 ， 因 此 检索 查询 可 以 精确 地 返回 《我 爱 露 西 》 
的 一 集 ， 里 卡 多 在 其 中 用 英语 和 西班牙 语 为 他 禄 神 中 的 儿子 讲述 《小 红 帽 》 的 故事 。 
注意 ， 确 实 相 关 的 记录 可 能 需要 达到 数 千 条 才 是 有 效 的 。 这 里 所 说 的 “相关 ”， 指 的 是 
记录 中 出 现 了 查询 词 或 类 似 内 容 (连同 有 关 人 们 最 终点 击 的 链接 的 信息 )。 但 是 ， 为 了 
获得 这 样 的 相关 记录 ， 可 能 需要 处 理 数 万 亿 条 数据 。 当 然 ， 随 机 抽样 并 不 会 有 作用 。 
参见 2.8 节 。 


2.1.4 样本 均值 与 总 体 均值 
总 体 中 的 样本 均值 一 般 用 符号 z 表 示 ， 而 总 体 的 均值 一 般 用 /表示 。 为 什么 要 区 分 这 两 
者 ? 这 是 因为 样本 的 信息 是 可 以 观测 到 的 ， 而 大 规模 的 总 体 的 信息 通常 获取 自 规模 较 小 的 



























































[uy 





下 








































































































加 
卫 各 油 












































38 | 第 2 章 


样本 。 统 计 学 家 喜欢 从 符号 上 对 两 者 加 以 区 分 。 





本 节 要 点 
。 即便 是 在 大 数据 时 代 ， 随 机 抽样 依然 是 数据 科学 家 的 一 种 重要 手段 。 
。 由 于 测量 或 观测 不 能 代表 总 体 而 出 现 系 统 性 误差 时 ， 就 会 产生 偏差 。 
。 数据 的 质量 通常 比 数量 更 重要 ,而 随机 抽样 可 以 降低 偏差 ,提高 数据 的 质量 (否则 ， 
实现 成 本 可 能 很 高 )。 











2.1.5 拓展 阅读 


。 在 The Sage Handbook of Online Research Methods 一 书 中 ，Ronald Fricker 撰写 了 一 
“Sampling Methods for Web and E-mail Surveys"”， 其 中 对 抽样 过 程 的 介绍 十 分 有 用 。 
章 综述 了 对 随机 抽样 方法 的 一 些 改进 ， 基 于 成 本 或 可 行 性 的 实际 考虑 ， 这 些 改进 2 
使 用 。 
在 Capital Century 网 站 上 可 以 看 到 有 关 《 文 学 文摘 》 调 查 失败 的 介绍 。 


2.2 ”选择 偏差 


吉 . 贝 拉 (Yogi Berra) 有 一 句 名 言 :“ 如 果 你 不 知道 自己 在 寻找 什么 ， 那 么 努力 去 寻找 
吧 ， 终 会 发 现 它 。 
选择 偏差 是 指 以 一 种 可 导致 误导 性 或 短暂 性 结论 的 方式 ， 有 选择 性 地 选取 数据 的 操作 。 选 
择 偏差 可 能 是 有 意 而 为 之 ， 也 可 能 是 无 意识 的 。 






































主要 术语 
偏差 
系统 性 误差 。 
数据 宕 探 
为 得 到 感 兴趣 的 结果 ， 在 数据 中 做 大 量 的 查找 。 
大 规模 搜索 效应 
由 于 重复 的 数据 建 模 ， 或 使 用 大 量 的 预测 变量 对 数据 建 模 所 导致 的 偏差 或 非 可 重 
现 性 。 














如 有 果 我 们 指定 一 个 假设 ， 并 使 用 设计 良好 的 实验 去 验证 该 假设 ， 就 能 得 到 具有 高 置信 度 的 
结论 。 但 实际 情况 往往 并 非 如 此 。 人 们 通常 只 是 查看 可 用 的 数据 ， 并 试图 识别 数据 中 的 模 
式 。 还 是 仅仅 是 数据 窥探 ( 即 广 泛 地 探查 数据 ， 直 至 发 现 我 们 感 兴趣 的 
现象 ) 的 结果 ? 在 统计 学 家 中 存在 着 一 个 说 法 :“ 如 果 我 们 拷问 数据 的 时 间 足 够 长 ， 那 么 
es 


通过 实验 验证 一 个 假设 所 得 到 的 现象 ， 与 通过 研判 可 用 数据 而 发 现 的 现象 ， 这 两 者 之 间 存 
在 着 差别 。 下 面 我 们 通过 一 个 实验 给 出 解释 。 
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假设 有 人 说 他 能 做 到 抛 硬币 连续 十 次 正面 向 上 。 我 们 想 要 挑战 他 ， 这 就 相当 于 做 一 次 实 
验 。 如 果 他 继续 抛 十 次 硬币 ， 依 然 连续 正面 向 上 ， 显 然 这 只 能 归 因 于 他 具有 某 种 特异 功 
能 ， 因 为 抛 硬币 连续 十 次 正面 向 上 的 概率 大 约 是 千 分 之 一 。 


现在 ， 假 设 在 一 个 体育 场 中 有 两 万 名 观众 ， 我 们 通过 播音 员 要 求全 体 两 万 人 一 起 抛 十 次 硬 
币 。 如 果 有 人 做 到 了 连续 十 次 正面 向 上 ， 就 站 出 来 。 我 们 会 看 到 ， 整 个 体育 场 中 很 可 能 
人 会 做 到 连续 十 次 正面 向 上 。 这 一 事件 的 概率 非常 高 ， 甚 至 会 高 于 99%， 即 1 减 去 没有 人 
得 到 十 次 正面 向 上 的 概率 。 显 然 ， 我 们 事后 从 所 有 人 中 选取 能 做 到 十 次 正面 向 上 的 人 ， 并 
不 意味 着 他 们 具有 任何 特异 功能 ， 这 更 像 是 运气 使 然 。 


反复 地 查看 大 规模 数据 集 是 数据 科学 中 的 一 个 关键 价值 主张 ， 所 以 我 们 需要 关注 选择 偏差 
问题 。 数 据 科 学 家 特别 关注 的 一 种 选择 偏差 形式 ， 就 是 被 约翰 ' 埃 德 (John Elder) 称 为 
大 规模 搜索 效应 的 问题 。 约 翰 ' 埃 德 是 美国 Elder 研究 机 构 的 创始 人 ， 该 机 构 是 一 家 广 受 
关注 的 数据 挖掘 和 咨询 公司 。 如 果 在 大 规模 数据 集 上 反复 运行 不 同 的 模型 ， 并 提出 不 同 的 问 
题 ， 我 们 肯定 能 发 现 一 些 有 意思 的 现象 。 但 是 我 们 所 发 现 的 结果 是 否 的 确 具 有 意义 ? 还 是 
仅 是 一 些 离 群 值 ? 


为 了 避免 这 一 问题 ， 我 们 可 以 使 用 验证 集 (holdout set) 去 验证 结果 的 性 能 ， 有 时 可 能 需 
要 多 个 验证 集 。 埃 德 倡议 使 用 一 种 被 称 为 目标 混 洗 (target shuffle) 的 方法 。 该 方法 在 本 质 
上 就 是 一 种 置换 检验 ， 验 证 由 数据 挖掘 模型 所 预测 的 关联 关系 的 合法 性 。 

在 统计 学 中 ， 除 了 大 规模 搜索 效应 之 外 ， 选 择 偏差 的 典型 形式 还 包括 非 随机 抽样 〈 参 见 抽 
样 偏差 )、 主 观 随 机 挑选 (cherry-picking) 数据 、 选 取 突 出 特定 统计 效应 的 时 间 间 隔 ， 以 及 
在 结果 看 上 去 “具有 意义 ”时 停止 实验 。 


2.2.1 趋 均 值 回 归 

趋 均值 回归 指 对 同一 变量 做 连续 测量 时 出 现 的 一 种 现象 ， 即 在 极端 观测 值 后 ， 会 出 现 更 趋 
向 于 中 心 的 观测 值 。 对 极 值 给 予 特殊 的 关注 和 意义 ， 会 导致 荣 种 形式 的 选择 偏差 。 
“当年 的 新 秀 会 在 第 二 年 表现 低迷 。” 这 是 广大 体育 迷 们 耳熟能详 的 一 个 现象 。 从 某 个 赛季 
开始 职业 生涯 的 新 运动 员 中 ， 总 会 有 个 人 的 成 绩 好 于 其 他 所 有 人 。 但 是 在 第 二 年 ,“ 当 年 
的 新 秀 ” 的 成 绩 通常 会 不 如 上 一 年 。 为 什么 会 这 样 呢 ? 

几乎 所 有 主要 的 体育 运动 ， 至 少 是 打球 或 冰球 ， 运 动员 的 整体 表现 取决 于 两 个 关键 因素 。 
。 技能 

。 运气 

趋 均 值 回 归 是 由 某 种 形式 的 选择 偏差 所 导致 的 。 在 选取 运动 成 绩 最 好 的 新 秀 时 ， 技 能 和 好 
运气 可 能 会 同时 发 挥 作用 。 而 在 下 一 个 赛季 ， 尽 管 该 运动 员 的 技能 依旧 ， 但 运气 却 在 很 多 
情况 下 并 非 如 此 。 因 此 他 的 成 绩 会 下 请 ， 即 产生 倒退 。 该 现象 最 早 是 1886 年 由 弗朗西斯 ， 
加 尔 顿 发 现 的 '。 在 撰写 论文 时 ， 他 将 此 现象 与 遗传 倾向 联系 在 一 起 。 例 如 ， 如 果 父 亲 个 子 











































































































注 1: Galton, Francis. “Regression towards mediocrity in Hereditary stature.” The Journal of the Anthropological 
Institute of Great Britain and Ireland, 15:246-273. JSTOR 2841583. 
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很 高 ， 那 么 子女 的 身高 趋向 低 于 父亲 ， 如 图 2-5 所 示 。 
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图 2-5: 加 尔 顿 的 研究 提出 了 趋 均值 回归 现象 


从 “ 回 退 ”意义 上 看 ， 趋 均值 回归 完全 不 同 于 统计 建 模 方法 的 线性 回归 。 线 
性 回归 用 于 估计 预测 变量 和 输出 变量 间 的 线性 关系 。 

















本 节 要 点 
。 指定 一 个 假设 ,然后 遵循 随机 化 和 随机 抽样 的 原则 收集 数据 , 可 以 确保 不 会 产生 偏差 。 
。 所 有 其 他 类 型 的 数据 分 析 都 有 产生 偏差 的 风险 ， 风 险 来 自 数 据 的 采集 和 分 析 过 程 ， 包 
括 在 数据 挖 气 中 反复 地 运行 模型 、 在 研究 中 窥探 数据 ， 以 及 事后 选取 有 意义 的 事件 。 











ra 二 
2.2.2 ”拓展 阅读 
。 Christopher J. Pannucci 和 Edwin G. Wilkins 在 其 论文 “Identifying and Avoiding Bias in 
Research” 中 ， 对 研究 中 可 能 会 引入 的 各 种 偏差 (包括 选择 偏差 ) 进行 了 综述 。 该 论文 
发 表 在 Plastic and Reconstructive Surgery 2010 年 8 月 刊 上 。 
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。 Michael Harris 的 文章 “Fooled by Randomness Through Selection Bias” 从 一 个 股票 交易 
人 士 的 角度 ， 对 股票 市 场 交易 中 所 考虑 的 选择 偏差 问题 做 了 综述 。 


2.3 统计 量 的 抽样 分 布 


统计 量 的 抽样 分 布 指 从 同一 总 体 中 抽取 多 个 样本 时 ， 一 些 样本 统计 量 的 分 布 情况 。 经 典 统 
计 学 主要 关注 如 何 从 小 样本 推导 更 大 总 体 的 情况 。 








主要 术语 
样本 统计 量 
对 抽取 自 大 规模 总 体 中 的 样本 做 计算 ， 所 得 到 的 一 些 度量 值 。 
数据 分 布 
单个 值 在 数据 集中 的 频数 分 布 。 
抽样 分 布 
一 个 样本 统计 量 在 多 个 样本 或 重 抽样 中 的 频数 分 布 。 
中 心 极限 定理 
当 样 本 的 规模 增 大 时 ， 抽 样 分 布 呈 正 态 分 布 的 趋势 。 
多 个 样本 间 样 本 统计 量 的 变异 性 (标准 偏差 )。 不 要 与 标准 偏差 混 清 ， 后 者 指 的 
是 个 体 数 据 值 间 的 变异 性 。 











我 们 从 总 体 中 抽取 样本 ， 通 常 是 为 了 测量 某 个 样本 统计 量 ， 或 是 使 用 统计 学 或 机 器 学 习 模 
型 进行 建 模 。 鉴 于 估计 量 或 模型 是 基于 某 个 样本 的 ， 因 此 其 中 可 能 存在 误差 ， 也 可 能 会 

于 抽取 样本 的 不 同 而 有 所 差异 。 我 们 需要 了 解 这 种 差异 究竟 如 何 ， 即 我 们 的 主要 关注 点 在 
于 抽样 的 变异 性 。 如 果 有 大 量 的 数据 ， 那 么 我 们 可 以 从 中 抽取 更 多 的 样本 ， 进 而 直接 观察 
样本 统计 量 的 分 布 情况 。 只 要 数据 易于 获取 ， 那 么 我 们 一 般 会 使 用 尽 可 能 多 的 数据 去 计算 
估计 量 或 拟 合 模型 ， 而 非 总 是 使 用 从 总 体 中 抽取 更 多 样本 的 方法 。 




















区 分 单个 数据 点 的 分 布 〈 即 数据 分 布 ) 和 样本 统计 量 的 分 布 〈 即 抽样 分 布 ) 
非常 重要 。 








通常 ， 样 本 统计 量 (如 均值 等 ) 的 分 布 要 比 数据 本 身 的 分 布 更 加 规则 ， 分 布 的 形状 更 趋向 
于 正 态 分 布 的 钟 形 曲 线 。 统 计 所 基于 的 样本 规模 越 大 ， 上 面 的 观点 就 愈 发 成 立 。 此 外 ， 样 
本 的 规模 越 大 ， 样 本 统计 量 的 分 布 就 越 罕 。 

下 面 我 们 用 一 个 例子 来 解释 这 一 观点 。 本 例 中 使 用 的 数据 来 自 向 Lending Club 公司 申请 贷 
款 者 的 年 收入 数据 (对 于 数据 的 详细 描述 ， 参 见 6.1.1 节 )。 我 们 对 数据 做 三 次 抽样 ， 得 到 
的 三 个 样本 分 别 为 : 具有 1000 个 值 的 样本 、 取 5 个 数据 均值 的 1000 个 均值 样本 ,以 及 取 
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20 个 数据 均值 的 1000 个 均值 样本 。 然 后 我 们 绘制 每 个 样本 的 直方 图 ， 如 图 2-6 所 示 。 
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2-6: 贷款 申请 者 年 收入 样本 的 直方 图 。 从 上 到 下 的 样本 依次 为 : 1000 名 贷款 申请 者 样本 (上 ， 
即 n=1)、n= 5 的 1000 个 均值 样本 (中 )， 以 及 mn = 20 的 1000 个 均值 样本 (下 ) 


单个 数据 值 样本 的 直方 图 的 分 布 很 宽泛 ， 并 且 向 更 高 值 处 偏 斜 ， 这 与 对 收入 数据 的 预期 一 
致 。n =5 和 n=20 的 均值 样本 的 直方 图 表现 出 一 种 愈加 紧凑 的 趋势 ， 并 且 形 状 更 趋向 于 钟 
形 。 下 面 给 出 生成 上 面 直 方 图 的 R 代码 ， 其 中 使 用 了 可 视 化 软件 包 ggpLot2。 


library(ggplot2) 
# 做 一 次 简单 随机 抽样 
samp_data <- data.frame(income=sample(loans_income, 1000), 
type='data_dist') 
# 对 5 个 数据 的 均值 做 抽样 
samp_mean_05 <- data.frame( 
income = tapply(sample(loans_income, 1000*5), 
rep(1:1000, rep(5, 1000)), FUN = mean), 
type = 'mean_of_5') 
# 对 26 个 数据 的 均值 做 抽样 
samp_mean_20 <- data.frame( 
income = tapply(sample(loans_income, 1000*20), 
rep(1:1000, rep(20, 1000)), FUN = mean), 
type = 'mean_of_20') 
# 将 抽样 结果 绑 定 到 一 个 data.frames 对 象 ， 并 转化 为 因子 类 型 
income <- rbind(samp_data, samp_mean_05, samp_mean_20) 
incomeStype = factor(income$type, 
levels=c('data dist', 'mean_of_5', 'mean_of_20'), 
labels=c('Data', 'Mean of 5', 'Mean of 20')) 
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# 绘制 直方 图 

ggplot(income, aes(x=income)) + 
geom_ histogram(bins=40) + 
facet _ grid(type ~ .) 


2.3.1 ”中心 极限 定理 


上 例 中 的 现象 被 称 为 中 心 极限 定理 。 该 定理 指出 ， 即 便 原 始 总 体 不 符合 正 态 分 布 ， 但 是 只 
要 样本 的 规模 足够 大 ， 并 且 数 据 并 非 在 很 大 程度 上 偏离 正常 值 ， 那 么 从 多 个 样本 得 到 的 均 
值 将 会 呈现 出 我 们 所 熟知 的 钟 形 正 态 曲 线 (参见 2.6 节 )。 在 使 用 抽样 分 布 做 推理 时 ， 即 置 
信 区 间 和 假设 检验 中 ， 中 心 极限 定理 允许 我 们 使 用 1 分 布 这 样 的 近似 正 态 公式 。 

中 心 极限 定理 在 传统 的 统计 学 教科 书 中 得 到 了 大 量 的 关注 ， 因 为 它 是 支持 假设 检验 和 置信 
区 间 的 底层 机 制 ， 而 这 些 内 容 本 身 就 占据 了 教科 书 的 一 半 篇 幅 。 数 据 科学 家 应 该 了 解 这 一 
点 ， 但 是 鉴于 在 数据 科学 中 ， 任 意 场 景 都 能 使 用 自助 法 (bootstrap) 解决 问题 ， 很 少 正式 
地 使 用 假设 检验 和 置信 区 间 ， 因 此 中 心 极限 定理 并 非 处 于 数据 科学 实践 的 中 心 位 置 。 


2.3.2 ”标准 误差 
标准 误差 是 一 种 单 变量 度量 ， 它 总 结 了 单个 统计 量 抽样 分 布 的 变异 性 。 标 准 误差 可 以 根据 
样本 值 的 标准 偏差 s 和 样本 规模 n， 使 用 基于 统计 学 的 方法 进行 估计 ， 公 式 如 下 。 















































标准 误差 = -三 
正如 我 们 在 图 2-6 中 所 观察 到 的 ， 标 准 误差 会 随 样本 规模 的 增 大 而 减 小 。 有 时 ， 我 们 称 标 
准 误差 与 样本 规模 间 的 关系 为 n 的 平方 根 规则 。 如 果 要 使 标准 误差 减 小 一 半 ， 那 么 样本 规 
模 应 该 增 大 四 倍 。 
标准 误差 计算 公式 的 合理 性 源 于 中 心 极限 定理 (参见 2.3.1 节 )。 事 实 上 ， 我 们 不 必 依靠 中 
心 极限 定理 来 理解 标准 误差 。 下 面 的 方法 可 用 于 测量 标准 误差。 
(D 从 总 体 中 抽取 一 些 全 新 的 样本 ， 
(2) 对 于 每 个 新 样本 ， 计 算 统计 量 ， 例 如 均值 ， 
(3) 对 第 2 步 计算 得 到 的 统计 量 ， 计 算 其 标准 偏差 ， 以 此 作为 对 标准 误差 的 估计 。 
但 是 在 实践 中 ， 通 过 采集 新 样本 去 估计 标准 误差 的 方法 通常 并 不 可 行 ， 从 统计 意义 上 看 也 
存在 很 大 的 浪费 。 幸 运 的 是 ， 我 们 完全 不 需要 抽取 全 新 的 样本 ， 而 可 以 使 用 自助 法 进行 重 
抽样 (参见 2.4 节 )。 在 现代 统计 学 中 ， 自 助 法 已 成 为 估计 标准 误差 的 标准 方法 。 自 助 法 几 
乎 适用 于 所 有 的 统计 量 ， 它 不 依赖 于 中 心 极限 定理 或 其 他 的 分 布 假设 。 
标准 偏差 与 标准 误差 
不 要 将 标准 偏差 和 标准 误差 混为一谈 。 标 准 偏差 测量 的 是 单个 数据 点 的 变异 
性 ， 而 标准 误差 测量 的 是 抽样 度量 的 变异 性 。 

































































本 节 要 点 
。 样本 统计 量 的 频数 分 布 表 明了 度量 在 各 个 不 同 抽 样 间 的 变化 情况 。 
。 抽样 分 布 可 以 使 用 自助 法 估计 ， 也 可 以 通过 依赖 于 中 心 极限 定理 的 公式 计算 得 到 。 
。 标准 误差 是 一 个 关键 的 度量 ， 它 汇总 了 抽样 统计 量 的 变异 性 。 








2.3.3 ”拓展 阅读 


David Lane 的 统计 学 在 线 多 媒体 资源 提供 了 一 个 有 用 的 模拟 环境 。 你 可 以 选择 抽样 统计 
量 、 样 本 规模 和 迁 代 次 数 ， 并 且 可 以 将 结果 频数 分 布 可 视 化 为 直方 图 。 


2.4 自助 法 

要 估计 统计 量 或 模型 参数 的 抽样 分 布 ， 一 个 简单 而 有 效 的 方法 是 ， 从 样本 本 身 中 有 放 回 地 
抽取 更 多 的 样本 ， 并 对 每 次 重 抽样 重新 计算 统计 量 或 模型 。 这 一 过 程 被 称 为 自助 法 。 自 助 
法 无 须 假设 数据 或 抽样 统计 量 符 合 正 态 分 布 。 




















主要 术语 
自助 样本 〈bootstrap sample) 
从 观测 数据 集中 做 有 放 回 的 抽取 而 得 到 的 样本 。 


重 抽样 
在 观测 数据 中 重复 抽取 样本 的 过 程 ， 其 中 包括 自助 过 程 和 置换 ( 混 洗 ) 过 程 。 



































从 概念 上 看 ， 我 们 可 以 这 样 理解 自助 法 : 将 原始 样本 复制 成 千 上 万 次 ， 得 到 一 个 假想 的 总 
体 ， 其 中 包括 了 原始 样本 中 的 全 部 信息 ， 只 是 规模 更 大 。 然 后 我 们 从 这 一 假想 总 体 中 抽取 
样本 ， 用 于 估计 抽样 分 布 。 自 助 法 的 理念 如 图 2-7 所 示 。 









































自助 法 理论 


3 ) 6 3 7 3 ) 26 多 次 重 抽样 





原始 样本 多 次 复制 后 
得 到 的 样本 














2-7: 自助 法 的 理念 
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在 实践 中 ， 完 全 不 必 真 正 地 多 次 复制 样本 。 只 需 在 每 次 抽取 后 ， 将 观测 值 再 放 回 总 体 中 ， 
即 有 放 回 地 抽样 。 这 一 方式 有 效 地 创建 了 一 个 无 限 的 总 体 ， 其 中 任意 一 个 元 素 被 抽取 的 概 
率 在 各 次 抽取 中 保持 不 变 。 使 用 自助 法 对 规模 为 n 的 样本 做 均值 重 抽样 的 算法 实现 如 下 。 


(1) 抽取 一 个 样本 值 ， 记 录 后 放 回 总 体 。 
(2) 重复 n 次 。 
(3) 记录 nn 个 重 抽样 的 均值 。 
(4) 重复 步骤 1 ~ 3 多 次 ， 例 如 7 次 。 
(5) 使 用 > 个 结果 : 
a， 计 算 它 们 的 标准 偏差 〈 估 计 抽 样 均值 的 标准 误差 ) ; 
b. 生成 直方 图 或 箱 线 图 ， 
c， 找 出 置信 区 间 。 
我 们 称 > 为 自助 法 的 返 代 次 数 , 了 的 值 可 任意 指定 。 友 代 的 次 数 越 多 ， 对 标准 误差 或 置信 
区 间 的 估计 就 越 准确 。 上 述 过 程 的 结果 给 出 了 样本 统计 量 或 估计 模型 参数 的 一 个 自助 集 ， 
可 以 从 该 自助 集 查看 统计 量 或 参数 的 变异 性 。 


R 语言 的 boot 软件 包 将 上 述 步骤 组 合成 一 个 国 数 。 例 如 ， 下 面 的 代码 实现 将 自助 法 用 于 借 
款 者 的 收入 数据 。 
library(boot) 


stat_fun <- function(x, idx) median(x[idx]) 
boot_obj <- boot(loans_income, R = 1000, statistic = stat_fun) 


函数 stat_fun 计算 索引 idx 所 指定 样本 的 中 位 数 ， 结 果 如 下 。 


Bootstrap Statistics : 
original bias std. error 
七 1 62000 -70.5595 209.1515 


从 结果 中 可 看 到 ， 中 位 数 的 初始 估计 是 62 000 美元 。 自 助 法 分 布 显 示 ， 估 计量 的 偏差 约 为 
-70 美元 ， 标 准 误差 约 为 209 美元 。 

自助 法 也 可 用 于 多 变量 数据 。 这 时 该 方法 使 用 数据 行 作为 抽样 单元 ， 如 图 2-8 所 示 ， 进 而 
可 在 自助 数据 上 运行 模型 ， 佑 计 模 型 参数 的 稳定 性 (或 变异 性 )， 或 是 改进 模型 的 预测 能 
力 。 我 们 也 可 以 使 用 分 类 和 回归 树 〈 也 称 决 策 树 ) 在 自助 数据 上 运行 多 个 树 模型 ， 并 平均 
多 个 树 给 出 的 预测 值 (或 是 使 用 分 类 ， 并 选取 多 数 人 的 投票 )， 这 通常 要 比 使 用 单个 树 的 
预测 性 能 更 好 。 这 一 过 程 被 称 为 Bagging 方法 。Bagging 一 词 是 bootstrap aggregating ( 自 
助 法 聚合 ) 的 缩写 ,参见 6.3 市 。 


自助 法 反复 重 抽样 的 概念 十 分 简单 。 在 经 济 学 家 和 人 口 学 家 朱 利 安 .西蒙 (Julian Simon) 
于 1969 年 出 版 的 教科 书 Basic Research Methods in Social Scienrce 中， 汇总 了 多 个 重 抽样 的 
例子 ， 其 中 也 包括 一 些 自助 法 的 例子 。 但 是 ， 反 复 重 抽样 的 计算 量 很 大 ， 在 计算 能 力 广泛 
可 用 之 前 ， 它 不 是 一 种 可 行 的 方法 。 该 技术 在 20 世纪 70 年 代 末 80 年 代 初 才 由 斯 坦 福 大 























































































































注 2: Simon,J.L., & Burstein, P. (1969). Basic Research Methods in Social Science: The Art of Empirical Investigation. 


Random House. 
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学 统计 学 家 布 拉 德 利 * 埃 弗 龙 (Bradley Efron) 命名 。 当 时 他 在 多 份 学 术 期 刊 文章 ”以 及 
一 本 著作 “中 使 用 了 “自助 法 ”一 词 。 该 技术 在 那些 使 用 统计 学 方法 的 非 统 计 学 研究 人 员 
中 得 到 了 尤为 广泛 的 应 用 ， 主 要 用 于 在 数学 上 不 具备 解决 方法 的 一 些 度量 或 模型 。 尽 管 
均值 的 抽样 分 布 方法 在 20 世纪 80 年 代 就 已 经 确立 了 ， 但 当时 对 其 他 度量 的 抽样 分 布 方 
法 依然 尚未 确立 。 自 助 法 还 可 用 于 确定 抽样 的 规模 ， 它 通过 实验 查看 不 同 的 n 值 对 抽样 
分 布 的 影响 。 

















二 | 0.06, 13, 254 2.3,…,0 














图 2-8: 多 变量 自助 法 抽样 





自助 法 被 首次 提出 时 ， 曾 受到 了 大 量 的 怀疑 ， 因 为 它 太 神 奇 了 。 这 些 怀疑 都 源 于 对 自助 法 
目标 的 误解 。 














自助 法 并 不 补偿 小 规模 样本 。 它 不 创建 新 的 数据 ， 也 不 会 填补 已 有 数据 集中 
的 缺口 。 它 只 会 告知 我 们 ， 在 从 原始 样本 这 样 的 总 体 中 做 抽取 时 ， 大 量 额外 
的 样本 所 具有 的 行为 。 











2.4.1 重 抽样 与 自助 法 

正如 上 节 所 介绍 的 ， 有 时 重 抽样 这 个 词 等 同 于 自助 法 。 在 更 多 情况 下 ， 重 抽样 还 包括 置换 
过 程 (参见 3.3.1 节 )。 置 换 过 程 组 合 了 多 个 样本 ， 并 且 抽 样 可 能 是 无 放 回 的 。 但 是 在 任何 
情况 下 ， 自 助 法 都 是 指 对 观测 数据 集 做 有 放 回 的 抽样 。 

















注 3: Bradley Efron (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics. 7(1):1-26. 
注 4: Efron, B. (1982). The Jackknife, the Bootstrap, and Other Resampling Plans. Society of Industrial and 
Applied Mathematics CBMS-NSF Monographs. 
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本 节 要 点 
。 自助 法 ( 即 对 数据 集 做 有 放 回 的 抽样 ) 是 一 种 评估 样本 统计 量变 异性 的 强大 工具 。 
。 自助 法 可 以 类 似 的 方式 应 用 于 各 种 场景 中 ， 无 须 深入 探究 抽样 分 布 的 数学 近似 。 
。 自助 法 可 以 在 不 使 用 数学 近似 的 情况 下 ， 估 计 统 计量 的 抽样 分 布 。 
。 用 于 预测 模型 时 ， 聚 合 多 个 自助 样本 的 预测 ( 即 Bagging 方法 ) ， 要 优 于 使 用 单个 
模型 的 预测 。 








2.4.2 ”拓展 阅读 


。 Bradley Efron 和 Robert Tibshirani 合 著 的 4n Introduction to the Bootstrap 是 首 本 专门 介绍 
自助 法 的 图 书 。 该 书目 前 依然 广 为 阅 读 。 

。 Peter Hall 发 表 于 Statistical Science 2003 年 5 月 刊 (第 18 卷 第 2 期 ) 上 的 论文 “A Short 
Prehistory of the Bootstrap”， 从 多 个 角度 对 自助 法 进行 了 综述 ， 其 中 介绍 了 朱 利 安 .西蒙 
于 1969 年 首次 发 表 的 自助 法 。 

。 在 Gareth James 等 人 撰写 的 《统计 学 习 导 论 : 基于 了 应 用 》 一 书 中 ， 有 几 节 专门 介绍 
自助 法 ， 尤 其 是 Bagging 方法 。 


2.5 置信 区 间 


要 了 解 一 个 样本 佑 计量 中 潜在 的 误差 情况 ， 除 了 使 用 前 文 介绍 的 频数 表 、 直 方 图 、 箱 线 
和 标准 误差 等 方法 外 ， 还 有 一 种 方法 是 置信 区 间 。 
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主要 术语 
置信 水 平 
以 百分比 表示 的 置信 区 间 。 该 区 间 是 从 同一 总 体 中 以 同一 方式 构建 的 ， 可 以 包含 
我 们 感 兴趣 的 统计 量 。 
区 间 端 点 
置信 区 间 的 两 端 。 























不 确定 性 当然 不 受 人 待 见 。 人 们 (尤其 是 专家 ) 很 少 说 :“ 我 不 知道 。” 分 析 人 员 和 管理 者 
虽然 会 承认 不 确定 性 的 存在 ， 但 是 很 少 会 过 于 信任 以 单一 数值 呈现 的 估计 量 ， 即 点 估计 。 
为 了 解决 这 一 普遍 性 问题 ， 我 们 可 以 使 用 一 个 范围 而 不 是 单一 的 值 去 表示 估计 量 。 统 计 抽 
样 原理 是 置信 区 间 的 实现 基础 。 
置信 区 间 通 常 以 覆盖 程度 的 形式 给 出 ， 表 示 为 (高 ) 百分比 ， 例 如 90% 或 95%。 对 90% 
置信 区 间 的 一 种 理解 方式 是 ， 该 区 间 涵 盖 了 样本 统计 量 自助 抽样 分 布 中 间 90% 的 部 分 ( 参 
见 2.4 节 )。 更 通用 的 理解 是 ， 在 采用 类 似 抽样 过 程 的 情况 下 ， 样 本 统计 量 的 x9% 置信 区 
间 ， 表 明 该 区 间 平 均 在 x% 的 情况 下 包含 类 似 的 样本 估计 量 。 




































































给 定 样本 规模 nx， 并 指定 了 一 个 感 兴趣 的 样本 统计 量 ， 计 算 自 助 法 置信 区 间 的 算法 如 下 。 
(1) 从 数据 中 有 放 回 地 抽取 规模 为 n 的 随机 样本 ( 重 抽样 )。 

(2) 记录 重 抽样 中 感 兴趣 的 统计 量 。 

(3) 多 次 重复 步骤 1 ~ 2， 例 如 次 。 

(4) 对 于 x% 置信 区 间 ， 从 分 布 的 两 端 分 别 对 x 个 重 抽样 结果 切 尾 [(1-[x/100])/2]%。 

(5) 切 尾 点 就 是 x% 自助 法 置信 区 间 的 区 间 端 点 。 


图 2-9 显示 了 对 于 规模 为 20、 均 值 为 57 573 美元 的 样本 ， 申 请 贷款 者 的 年 收入 均值 的 90% 
置信 区 间 。 
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图 2-9: 申请 贷款 者 年 收入 均值 的 自助 法 置信 区 间 ， 该 区 间 基 于 规模 为 20 的 样本 


在 生成 大 多 数 统计 量 或 模型 参数 的 置信 区 间 时 ， 自 助 法 是 一 种 通用 的 工具 。 半 个 多 世纪 以 
来 ， 统 计 学 教材 和 软件 一 直 都 基于 缺少 计算 机 的 统计 分 析 ， 它 们 会 使 用 由 一 些 公式 (尤其 
是 1 分 布 ， 参见 2.8 节 ) 生成 的 置信 区 间 。 


当然 ， 在 得 到 抽样 结果 后 ， 我 们 真正 感 兴趣 的 是 “真实 值 落 在 某 个 特定 区 间 
中 的 概率 是 多 少 ”。 这 并 非 置 信 区 间 真 正 要 回答 的 问题 但 最 终 是 大 部 分 人 
解释 答案 的 方式 。 

与 置信 区 间 相 关 的 概率 问题 ， 一 开始 是 这 样 表述 的 :“ 给 定 抽样 方法 和 总 体 ， 
某 事 发 生 的 概率 是 多 少 ? ” 换 一 个 角度 表述 就 是 :“ 给 定 一 个 抽样 结果 ， 那 
么 某 事 (对 总 体 为 真 的 事情 ) 发 生 的 概率 是 多 少 ? ”这 一 问题 涉及 更 复杂 的 
计算 ， 并 且 更 难以 做 出 估计 。 


























置信 区 间 所 给 出 的 百分比 被 称 为 置信 水 平 。 置 信 水 平 越 高 ， 置 信 区 间 越 宽 。 此 外 ， 样 本 规 
模 越 小 ， 置 信 区 间 也 会 越 宽 ， 即 不 确定 性 越 大 。 两 者 都 成 立 。 如 果 要 在 数据 更 少 的 情况 下 
增加 置信 度 ， 那 么 我 们 必须 让 置信 区 间 足 够 宽 ， 以 确保 捕获 真实 值 。 


对 于 数据 科学 家 而 言 ， 置 信 区 间 是 一 种 了 解 样本 结果 可 能 的 变化 情况 的 工 
具 。 数 据 科学 家 使 用 这 一 信息 时 ， 既 不 是 像 研究 人 员 那 样 为 了 发 表 学 术 论 
文 ， 也 不 是 为 了 向 监管 机 构 提 交 结 果 ， 而 是 想 了 解 某 个 估计 量 的 潜在 误差 情 
况 ， 并 确定 是 否 需 要 更 大 的 样本 。 
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本 节 要 点 
。 置信 区 间 是 一 种 以 区 间 范 围 表示 估计 量 的 常用 方法 。 
。 数据 越 多 ， 样 本 估计 量 的 变异 性 越 小 。 
。 所 能 容 思 的 置信 水 平 越 低 ， 置 信 区 间 就 越 狭小 。 
。 自助 法 是 一 种 构建 置信 区 间 的 有 效 方法 。 








拓展 阅读 

。 用 于 确定 置信 区 间 的 自助 法 ， 可 参见 Peter Bruce 撰写 的 Introductory Statistics and Analytics: 
A Resampling Perspective 一 书 ， 或 是 Robin Lock 及 其 他 四 位 洛克 家 族 成 员 合 著 的 Statistics: 
Unlocking the Power of Data 一 书 。 

。 相对 于 其 他 学 科 而 言 ， 需 要 了 解 测量 精确 度 的 工程 师 会 更 多 地 使 用 置信 区 间 。Tom 
Ryan 撰写 的 Modern Engineering Statistics 一 书 中 介绍 了 置信 区 间 。 该 书 还 介绍 了 另 一 种 
非常 有 用 但 很 少 被 人 关注 的 工具 : 预测 区 间 。 预 测 区 间 不 同 于 均值 等 汇总 统计 量 ， 它 给 
出 了 围绕 单个 值 的 区 间 情 况 。 


2.6 正 态 分 布 

呈 钟 形 的 正 态 分 布 是 传统 统计 学 中 的 一 个 标志 性 概念 *。 事 实 上 ， 由 于 样本 统计 量 的 分 布 通 
常 呈 现 出 正 态 分 布 的 形状 ， 这 使 得 正 态 分 布 业已 成 为 一 种 推导 样本 统计 量 近 似 分 布 的 数学 
公式 的 强大 工具 。 






































主要 术语 

误差 

数据 点 与 预测 值 或 均值 间 的 差异 。 
标准 化 

数据 值 减 去 均值 ， 再 除 以 标准 偏差 。 
Z 分 数 

单个 数据 点 标准 化 的 结果 。 
标准 正 态 分 布 

均值 为 0、 标准 偏差 为 1 的 正 态 分 布 。 
QQ 图 

对 样本 分 布 与 正 态 分 布 间 接近 程度 的 可 视 化 绘 









































注 5: 钟 形 曲线 的 代表 性 可 能 被 高 估 了 。 美 国 曼 荷 莲 学 院 的 统计 学 家 乔治 * 科 布 (George W. Cobb) 在 2015 
年 11 月 的 《美国 统计 学 家 》 社 论 中 指出 :“ 标 准 的 统计 学 导论 课程 完全 围绕 正 态 分 布展 开 ， 这 超出 了 
正 态 分 布 中 心地 位 的 实用 性 。” 科 布 因 其 统计 学 导论 课程 的 教学 理念 而 知名 。 
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在 正 态 分 布 (如 图 2-10 所 示 ) 中 ，68% 的 数据 位 于 均值 的 一 个 标准 偏差 之 内 ，95% 的 数 
据 落 于 两 倍 的 标准 偏差 之 内 。 


对 正 态 分 布 的 一 个 常见 误解 是 ， 该 分 布 之 所 以 被 称 为 “ 正 态 分 布 "， 是 因为 
其 中 大 部 分 数据 符合 正 态 分 布 ， 即 数据 值 是 正 态 的 。 然 而 ， 数 据 科学 项 目 中 
使 用 的 大 部 分 变量 (事实 上 ， 大 多 数 原始 数据 ) 通常 并 不 是 正 态 分 布 的 〈 参 
见 2.6 节 )。 正 态 分 布 源 于 很 多 统计 量 在 抽样 分 布 中 是 正 态 分 布 的 。 即 便 如 


只 有 在 经 验 概 率 分 布 或 自助 法 分 布 不 可 用 时 ， 才 会 使 用 正 态 性 假设 作为 
-和 招 。 

















tt. 





99.7% 的 数据 落 在 均值 的 三 倍 
标准 偏差 之 内 
95% 的 数据 落 在 均值 的 
”二 售 概 准 偏差 之 内 
68% 的 数据 落 
< 一 在 均值 的 一 个 
标准 偏差 之 内 











LW—30 LW—20 UW—o nu 凡 十 G UW+20 LW+30 











图 2-10: 正 态 分 布 曲线 


正 态 分 布 也 被 称 为 高 斯 分 布 ， 命 名 源 于 18 世纪 末 19 世纪 初 伟大 的 德国 数 
学 家 卡尔 弗 里 德里 希 .高 斯 (Carl Friedrich Gauss)。 正 态 分 布 还 曾 使 用 过 
“误差 分 布 ” 这 一 名 称 。 从 统计 学 角度 看 ， 误 差 表示 实际 值 与 样本 均值 等 统 
计 学 估计 量 间 的 差异 。 例 如 ， 标 准 偏差 (参见 1.4 节 ) 基于 真实 值 与 均值 间 
的 误差 。 高 斯 对 正 态 分 布 的 贡献 来 自 于 他 对 天 体 测 量 误 差 的 研究 ， 这 一 误差 
已 被 证 明 是 符合 正 态 分 布 的 。 
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标准 正 态 分 布 和 QQ 图 


在 标准 正 态 分 布 中 , x 轴 的 单位 为 距离 均值 的 标准 偏差 。 为 了 使 数据 能 够 与 标准 正 态 分 布 
做 对 比 ， 我 们 需要 将 数据 值 减 去 均值 ， 然 后 除 以 标准 偏差 。 这 一 过 程 被 称 为 归 一 化 或 标准 
化 (参见 6.1.4 节 )。 注 意 ， 这 里 所 说 的 “标准 化 ”与 数据 库 记 录 的 标准 化 〈 即 转换 为 通用 
格式 ) 无 关 。 我 们 称 转化 值 为 z 分 数 ， 正 态 分 布 有 时 也 被 称 为 z 分布 。 


QQ 图 用 于 可 视 化 地 确定 样本 与 正 态 分 布 间 的 近似 度 。QQ 图 对 z 分 数 从 低 到 高 进行 排序 ， 
并 将 每 个 值 的 z 分 数 绘制 在 y 轴 上 。x 轴 的 单位 是 该 值 秩 (rank) 的 正 态 分 布 所 对 应 的 分 
位 数 。 由 于 数据 是 归 一 化 的 ， 所 以 单位 的 个 数 对 应 于 数据 值 与 均值 间 的 距离 是 标准 偏差 
的 多 少 倍 。 如 果 数 据点 大 体 落 在 对 角 线 上 ， 那 么 可 以 近似 地 认为 样本 分 布 符合 正 态 分 布 。 
图 2-11 显示 了 从 正 态 分 布 随机 生成 的 具有 100 个 值 的 样本 的 QQ 图 。 正 如 我 们 所 期 待 的 那 
样 ， 数 据点 十 分 接近 对 角 线 。 该 图 可 用 R 语言 的 qqnorm 函数 生成 。 

norm_samp <- rnorm(100) 


qqnorm(norm_samp) 
abline(a=0, b=1, col='grey')') 
























































图 2-11: 从 正 态 分 布 随机 生成 的 具有 100 个 值 的 样本 的 QQ 图 


将 数据 转换 为 = 分数 〈 即 标准 化 或 归 一 化 数据 )， 并 不 会 使 数据 符合 正 态 分 
布 。 它 只 是 将 数据 转化 到 与 标准 正 态 分 布 相同 的 尺度 上 ， 通 常 是 为 了 对 比 。 























本 节 要 点 
。 在 统计 学 的 发 展 史 中 ， 正 态 分 布 有 着 十 分 重要 的 地 位 ， 因 为 它 允 许 从 数学 上 近似 不 
确定 性 和 变异 性 。 
。 虽然 原始 数据 通常 并 不 符合 正 态 分 布 ， 但 误差 通常 是 符合 正 态 分 布 的 。 对 于 大 规模 
样本 的 均值 和 总 数 ， 也 是 一 样 的 。 
。 要 将 数据 转换 为 z 分 数 ， 需 要 减 去 数据 的 均值 ， 再 除 以 标准 偏差 。 这 样 ， 所 生成 的 
数据 才 可 以 与 正 态 分 布 进 行 对 比 。 








2.7 ”长 尾 分 布 


尽管 正 态 分 布 在 统计 学 历史 中 具有 非常 重要 的 地 位 ， 但 是 数据 通常 并 不 符合 正 态 分 布 ， 这 
与 其 名 称 完全 不 符 。 




















主要 术语 
尾 
一 个 频数 分 布 的 狭长 部 分 ， 其 中 相对 极 值 出 现 的 频数 很 低 。 
偏 斜 


分 布 的 一 个 尾部 长 于 另 一 个 尾部 。 











虽然 正 态 分 布 非常 适用 于 误差 和 样本 统计 量 的 分 布 ， 也 非常 有 用 ， 但 是 它 并 未 表示 出 原始 
数据 的 分 布 特性 。 有 时 ， 数 据 的 分 布 是 高 度 偏 斜 〈 即 不 对 称 ) 的 ， 如 借款 者 的 收入 数据 。 
有 时 ， 数 据 也 会 是 离散 的 ， 如 二 项 分 布 数 据 。 对 称 分 布 和 不 对 称 分 布 都 可 能 具有 长 尾 效 
应 。 数 据 分 布 的 尾部 ， 对 应 于 数据 中 的 极 值 ， 包 括 极 大 值 和 极 小 值 。 在 实际 工作 中 ， 长 尾 
问题 (以 及 如 何 避 免 出 现 长 尾 问 题 ) 备 受 关注 。 纳 西 姆 . 塔 勒 布 (Nassim Taleb) 提出 了 黑 
天 鹅 理论 ， 该 理论 预测 异常 事件 (如 股市 崩盘 ) 发 生 的 可 能 性 远大 于 正 态 分 布 的 预测 。 


股票 收益 很 好 地 展示 了 数据 的 长 尾 本 质 。 图 2-12 显示 了 Netflix 股票 (NFLX) 日 收益 情况 
的 QQ 图 。 绘 图 使 用 下 面 的 R 语句 生成 。 

nfLx <- sp500_px[,'NFLX'] 

nfLx <- diff(LogCnfLx[nfLx>0])) 


qqnorm(CnfLx) 
abline(a=0, b=1, col='grey') 
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-4 


-6 














图 2-12: NFLX 股票 日 收益 的 QQ 图 


与 图 2-11 不 同 ， 图 2-12 中 数据 点 的 低 值 远 低 于 对 角 线 ， 而 高 值 远 高 于 对 角 线 。 这 意味 着 ， 
相 比 于 我 们 期 望 数据 符合 正 态 分 布 的 情况 ， 我 们 更 趋向 于 观 济 到 一 些 极 值 。 图 2-12 还 显示 
了 男 一 种 常见 现象 ， 即 数据 点 的 分 布 接近 由 落 在 一 倍 均值 标准 偏差 范围 内 的 数据 所 构成 的 
线条 。 约 翰 . 图 基 将 此 现象 称 为 数据 “在 中 部 是 正 态 的 "， 但 是 具有 更 长 的 尾部 “。 


大 量 的 统计 学 文献 研究 了 统计 分 布 如 何 拟 合 观测 数据 的 问题 。 我 们 应 谨慎 地 
使 用 以 数据 为 中 心 的 方法 ， 它 们 不 仅 涉 及 科学 ， 同 样 具 有 艺术 性 。 从 表面 上 
看 ， 数 据 是 变化 的 ， 但 也 具有 一 致 性 。 数 据 的 分 布 可 能 具有 多 种 形状 和 类 
型 。 在 对 给 定 情 况 建 模 时 ， 通 常 必 须 借助 于 一 些 领域 知识 和 统计 学 知识 ， 才 
能 确定 适合 的 分 布 类 型 。 例 如 ， 使 用 每 五 秒 内 服务 器 因特网 流量 的 连续 观测 
数据 ， 有 助 于 确定 对 “每 个 时 间 间 隔 的 事件 ” 建 模 的 最 优 分 布 是 否 符合 泊 松 
分 布 (参见 2.10.1 节 )。 


















































本 节 要 点 


态 分 布 的 。 


。 大 部 分 数据 是 不 符合 正 
分 布 , 这 可 导致 对 极端 事件 产生 错误 的 估计 ( 即 “ 黑 天 鹅 ” 现 和 象 )。 


。 假设 数据 符合 正 态 














注 6: Tukey, John W. Edited by Jones, L. V. The collected works of John W. Tukey: Philosophy and Principles of 
Data Analysis 1965—1986, Volume IV. Chapman and Hall/CRC (1987). ISBN: 978-0-534-05101-3. 
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拓展 阅读 


。 Nassim Taleb 撰写 的 《 黑 天 鹅 ， 如 何 应 对 不 可 预知 的 未 来 》。 
。 KK. Krishnamoorthy 撰写 的 Handbook of Statistical Distributions With Applications。 


2.8 ”学 生 { 份 布 


1 分 布 呈 正 态 分 布 形状 ,但 是 钟 形 稍 厚 ， 尾 部 略 长 。t 分 布 广泛 用 于 描述 样本 统计 量 的 分 
布 。 样 本 均值 的 分 布 通常 呈 1 分 布 形状 。t 分 布 是 一 个 分 布 家 族 ， 家 族 中 的 每 个 成 员 根据 样 
本 规模 的 不 同 而 有 所 不 同 。 样 本 的 规模 越 大 ，: 分 布 就 越 趋向 于 正 态 分 布 形状 。 





主要 术语 


表示 一 个 样本 的 规模 。 
自由 度 





自由 度 是 一 个 参数 ， 允 许 根据 不 同 的 样本 规模 、 统 计量 和 组 数 对 1 分布 进行 调整 。 








1 分 布 通常 被 称 为 学 生 t 分 布 ， 因 为 它 是 1908 年 由 格 赛 特 (Gossett) 以 “学 生 ”(Student) 
为 作者 名 发 表 在 期 刊 Biometrika 上 的 。 当 时 格 赛 特 的 雇主 吉 尼 斯 啤酒 三 不 想 让 竞争 者 知道 
自己 使 用 了 统计 学 方法 ， 因 此 坚持 要 求 格 赛 特 匿名 发 表 该 论文 。 


格 赛 特 在 该 论文 中 想 要 回答 的 问题 是 :“ 如 果 从 一 个 大 规模 总 体 中 抽取 一 个 样本 ， 那 么 样 
本 均值 的 抽样 分 布 是 什么 ? ”他 从 重 抽样 实验 着 手 ， 在 一 个 包括 3000 名 罪犯 的 身高 和 左 
手中 指 长 度 的 观测 数据 集中 ， 随 机 地 抽取 了 4 个 样本 。( 该 研究 属于 优生 学 领域 ， 所 使 用 
的 是 犯罪 数据 ， 关 注 的 是 发 现 犯罪 倾向 与 罪犯 身体 或 精神 属性 间 的 关联 关系 。) ee 
上 绘制 了 标准 化 后 的 结果 ( 即 z 分 数 )， 在 y pap 会 制 了 频数 。 由 此 得 到 了 一 个 他 称 为 “ 
生 1” 的 函数 ， 并 将 该 函数 与 样本 结果 拟 合 ， 绘 制 了 对 比 的 情况 ， 如 图 2-13 所 示 。 





























Scale of Starndard Deviation of the sample 











图 2-13: 格 赛 特 重 抽样 实验 的 结果 ， 以 及 所 拟 合 的 + 曲线 (引用 自 他 于 1908 年 发 表 在 Biometrika 
期 刊 上 的 文章 ) 
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我 们 可 以 将 一 组 不 同 的 统计 量 标准 化 ， 然 后 与 上 分 布 进行 对 比 ， 并 根据 抽样 变异 性 估计 置 
信 区 间 。 考 虑 一 个 规模 为 n 的 样本 ， 其 中 样本 均值 x 已 经 计算 出 来 。 如 果 s 是 样本 的 标准 
偏差 ， 那么 样本 均值 周边 90% 的 置信 区 间 由 下 式 给 出 。 








T+t, (0.05)x2 
n 














其 中 ,6 (0.05) 是 自由 度 (参见 3.7 节 ) 为 w-D 情况 下 的 1 统计 量 值 ， 它 表示 在 1 分 布 的 
两 端 分 别 “ 截 去 ”了 5%。1 分 布 能 为 样本 均值 的 分 布 、 两 个 样本 均值 间 的 差异 、 回 归 参 数 
等 统计 量 提供 参考 。 


如 果 早 在 1908 年 计算 能 力 就 广泛 可 用 ， 那 么 之 无 疑问 ， 统 计量 的 计算 从 一 开始 就 会 更 依 
赖 于 计算 密集 的 重 抽 样 方法 。 由 于 当时 没有 计算 机 ， 统 计 学 家 转 而 采用 数学 和 函数 方法 ， 
例如 使 用 :分 布 去 近似 抽样 分 布 。 虽 然 到 了 20 世纪 80 年 代 ， 计 算 能 力 的 发 展 使 得 重 抽样 
实验 得 以 实际 开展 ， 但 是 教科 书 和 软件 中 依然 使 用 :分 布 及 类 似 的 分 布 。 

要 让 1 分 布 准确 地 解释 样本 统计 量 的 特性 ， 需 要 样本 统计 量 的 分 布 形状 类 似 于 正 态 分 布 。t 
分 布 之 所 以 被 广泛 使 用 是 基于 这 样 一 个 事实 ， 即便 底层 的 总 体 数据 并 不 符合 正 态 分 布 ， 但 
样本 统计 量 通 常 符 合 正 态 分 布 。 该 现象 被 称 为 中 心 极限 定理 (参见 2.3.1 节 )。 























数据 科学 家 需要 了 解 1 分 布 和 中 心 极限 定理 中 的 哪些 内 容 ? 答案 是 并 不 需要 
了 解 太 多 。 这 些 分 布 是 用 于 经 典 的 统计 推理 中 的 ， 在 数据 科学 中 并 非 十 分 重 
要 。 对 于 数据 科学 家 而 言 ， 重 在 理解 并 定量 分 析 不 确定 性 和 变异 性 。 这 时 ， 
以 实验 为 依据 的 自助 抽样 可 以 解答 大 多 数 与 抽样 误差 相关 的 问题 。 但 是 ， 数 
据 科学 家 还 是 时 常会 在 统计 学 软件 和 及 的 统计 过 程 中 遇 到 :统计 量 ， 比 如 在 
A/B 测试 和 回归 中 。 因 此 ， 了 解 这 些 分 布 的 目的 对 于 数据 科学 家 来 说 也 是 有 
所 神 益 的 。 









































本 节 要 点 
。 1 分 布 实际 上 是 一 个 分 布 家 族 。 它 们 与 正 态 分 布 相似 ， 但 是 尾部 略 厚 。 
。 上 分布 被 广泛 地 用 作 样本 均值 分 布 、 两 个 样本 均值 间 的 差异 、 回 归 和 参数 等 的 参考 基础 。 











拓展 阅读 


。 格 赛 特 1908 年 发 表 在 Biometrika 期 刊 上 的 原始 论文 , 网 上 提供 了 PDF 文件 下 载 (http:// 
seismo.berkeley.edu/~kirchner/eps_120/Odds_n_ends/Students_original_paper.pdf ) 。 

。 在 大 卫 莱恩 提供 的 在 线 资源 ( http://onlinestatbook.com/2/estimation/t_distribution.html ) 
中 ， 可 以 看 到 对 1 分 布 的 标准 处 理 方法 。 


























2.9 ”二 项 分 布 





主要 术语 
试验 
一 次 输出 离散 值 的 事件 ， 例 如 ， 一 次 硬币 抛掷 。 
成 功 


一 次 试验 的 输出 为 我 们 感 兴趣 的 结果 。 
同义词 : 1 (相对 于 0) 


二 项 
具有 两 个 输出 


同义词 : 是 / 否 、0/1、 二 元 


二 项 试验 
有 两 种 输出 的 试验 。 


同义词 : 伯 努 利 试验 


二 项 分 布 
在 多 次 试验 中 (例如 x 次 )， 成 功 次 数 的 分 布 。 


同义词 : 伯 努 利 分 布 


























“是 / 否 ” 这 样 的 (二 项 ) 结果 是 数据 分 析 的 核心 ， 因 为 它 通常 是 决策 或 其 他 过 程 的 结果 ， 
例如 ， 买 或 不 买 ， 点 击 或 不 点 击 ， 存 活 或 死亡 等 。 试 验 对 于 理解 二 项 分 布 至 关 重 要 。 在 一 
组 试验 中 ， 每 次 试验 有 两 种 可 能 的 结果 ， 每 种 结果 具有 一 个 明确 的 概率 。 


例如 ， 抛 硬币 10 次 是 一 个 包含 10 次 二 项 试验 的 实验 ， 每 次 试验 有 两 种 可 能 的 结果 ， 即 正 
面 或 背面 朝 上 (如 图 2-14 所 示 )。“ 是 / 否 ”“0/1” 这 样 的 结果 称 为 二 元 结果 ， 两 种 结果 不 
一 定 都 有 50% 的 概率 。 事 实 上 ， 只 要 两 种 结果 的 概率 之 和 为 1 即 可 。 统 计 学 中 的 惯例 做 法 
是 ， 将 输出 为 “1” 的 试验 称 为 一 次 成 功 的 结果 ， 而 且 通 常 将 “1” 指 派 给 较 罕见 的 结果 。 
这 里 使 用 “成 功 ” 一 词 ， 并 非 表 示 结 果 是 我 们 需要 的 或 是 对 我 们 有 利 的 ， 而 是 表示 试验 的 
确 倾向 于 给 出 我 们 感 兴 趣 的 结果 。 例 如 ， 我 们 可 能 会 对 预测 贷款 拖欠 或 欺诈 性 交易 感 兴 
趣 ， 这 些 事件 是 相对 罕见 的 ， 因 此 我 们 可 以 将 这 类 事件 定义 为 “1” 或 “成 功 ”。 






































图 2-14: 北美 野牛 镍 币 的 反面 
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二 项 分 布 是 在 给 定 每 次 试验 的 成 功 概率 p、 实 验 次 数 n 的 情况 下 ， 成 功 数 x 的 频数 分 布 。 
根据 x、n 和 p 值 的 不 同 ， 二 项 分 布 也 构成 了 一 个 分 布 家 族 。 二 项 分 布 可 以 回答 如 下 问题 。 
如 果 链 接点 击 转换 为 购买 的 概率 是 0.02， 那 么 观测 到 200 次 点 击 但 没有 购买 的 概 

率 是 多 少 ? 
R 语言 的 dbinon 函数 可 用 于 计算 二 项 概率 。 

dbinom(x=2, n=5, p=0.1) 
该 命令 返回 0.0729。 该 值 表示 每 次 试验 成 功 的 概率 p= 0.1 时， 在 n=5 次 试验 中 观测 到 x=2 
的 概率 。 
通常 ， 我 们 感 兴趣 的 是 确定 x 的 概率 ， 或 者 n 次 实验 中 较 罕 见 事件 的 成 功 概率 。 在 这 种 情 
况 下 ， 应 该 使 用 R 语言 的 pbinom 函数 。 
pbinom(2, 5, 0.1) 
该 命令 返回 0.9914， 即 在 5 次 成 功 概率 是 0.1 的 试验 中 ， 观 测 到 不 多 于 两 次 成 功 的 概率 。 
二 项 分 布 的 均值 是 nxp， 也 可 以 将 均值 视 为 n 次 试验 的 期 望 成 功 次 数 ， 其 中 每 次 试验 的 成 
功 概率 是 p。 
二 项 分 布 的 方差 是 nxp(1-p)。 如 果 试 验 的 次 数 足够 多 (尤其 是 当 p 接近 于 0.5 时 )， 二 项 
分 布 几乎 等 于 正 态 分 布 。 事 实 上 ， 计 算 大 规模 样本 的 二 项 概率 对 计算 能 力 的 要 求 很 高 ， 因 
此 大 多 数 统计 程序 会 使 用 具有 一 定 均值 和 方差 的 正 态 分 布 给 出 近似 计算 。 





















































本 节 要 点 
。 二 项 输出 在 建 模 中 十 分 重要 ， 因 为 它们 表示 了 基本 的 决策 情况 ， 例 如 是 否 购买 、 是 
否 点 击 、 存 活 还 是 死亡 等 。 
。 二 项 试验 是 一 种 具有 两 种 可 能 结果 的 试验 ， 其 中 一 种 结果 的 概率 为 六 ， 另 一 种 结果 
的 概率 为 1-p。 
。 当 n 很 大 并 且 p 不 接近 于 0 (或 1) 时 ， 二 项 分 布 可 使 用 正 态 分 布 近似 。 











拓展 阅读 

。 阅读 一 个 名 为 quincunx 的 在 线 弹 珠 模拟 程序 ， 它 展示 了 二 项 分 布 ， 网 址 是 https://www. 
mathsisfun.com/data/quincunx.html。 

。 二 项 分 布 是 统计 学 导论 中 的 主要 内 容 。 在 所 有 的 统计 学 导论 教材 中 ， 都 会 有 一 到 两 章 的 
内 容 介 绍 二 项 分 布 。 


2.10 ” 泊 松 分 布 及 其 相关 分 布 


一 些 过 程 是 根据 一 个 给 定 的 整体 速率 随机 生成 事件 的 。 所 生成 的 事件 可 能 是 随时 间 扩 展 
的 ， 例 如 某 个 网 站 的 访问 者 情况 、 一 个 收费 站 的 汽车 到 达 情 况 等 ， 也 可 能 是 散布 于 空间 中 
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的 ， 例 如 每 平方 米 纺织 品 上 的 缺陷 情况 、 每 百 行 代码 中 的 拼写 错误 情况 。 





主要 术语 
lambda 
单位 时 间 内 或 单位 空间 中 的 事件 发 生 率 。 
泊 松 分 布 
单位 时 间 内 或 单位 空间 中 事件 数量 的 频数 分 布 。 
指数 分 布 
在 时 间或 距离 上 ， 从 一 个 事件 到 下 一 个 事件 的 频数 分 布 。 
韦伯 分 布 
泛 化 版 本 的 指数 分 布 。 韦 伯 分 布 允 许 事件 发 生 的 速率 随时 间 变 化 。 








2.10.1 泊 松 分 布 


我 们 可 以 根据 先 验 数 据 估计 单位 时 间 内 或 单位 空间 中 的 平均 事件 数量 。 但 是 我 们 可 能 也 想 
知道 ， 单 位 时 间或 单位 空间 之 间 事 件 的 差异 情况 。 泊 松 分 布 通过 对 很 多 单位 抽样 ， 可 以 告 
诉 我 们 单位 时 间 内 或 单位 空间 中 事件 的 分 布 情况 。 例 如 ， 对 于 回答 排队 问题 ， 泊 松 分 布 就 
非常 有 用 ， 比 如 :“ 如 果 要 确保 在 95% 的 情况 下 ， 可 以 完全 处 理 任 意 五 秒 内 到 达 服 务 器 的 
网 络 流量 ， 我 们 需要 多 大 的 容量 ? 
泊 松 分 布 的 一 个 关键 参数 是 1 〈lambda) 。 它 表示 在 指定 时 间或 空间 间隔 中 ， 事 件 发 生 数量 
的 均值 。 泊 松 分 布 的 方差 也 是 4。 
在 模拟 排队 问题 中 使 用 泊 松 分 布 生成 随机 数 ， 这 是 一 种 常用 的 方法 。R 语言 的 rpois 函数 
实现 了 此 功能 。 该 函数 可 以 只 接收 两 个 参数 ， 即 随机 数 的 数量 和 Lambda。 

rpois(100, lambda = 2) 


上 面 的 命令 将 从 4 = 2 的 泊 松 分 布 生成 100 个 随机 数 。 例 如 ， 如 果 平 均 每 分 钟 有 两 次 客户 
服务 电话 呼 入 ， 那 么 上 面 的 命令 可 以 模拟 100 分 钟 内 电话 呼 入 的 情况 ， 并 返回 每 一 分 钟 内 
的 电话 呼 入 次 数 。 


2.10.2 ”指数 分 布 


指数 分 布 可 以 建 模 各 次 事件 之 间 的 时 间 分 布 情况 ， 例 如 ， 网 站 访问 的 时 间 间 隔 ， 汽 车 抵达 
收费 站 的 时 间 间 隔 。 它 所 使 用 的 参数 4 与 泊 松 分 布 一 样 。 在 工程 领域 ， 指 数 分 布 可 用 于 故 
障 时 间 的 建 模 ， 在 过 程 管 理 领 域 ， 指 数 分 布 可 用 于 对 每 次 服务 电话 所 需 的 时 间 进 行 建 模 。 
使 用 R 代码 实现 从 指数 分 布 生成 随机 数 时 ， 需 指定 两 个 参数 ， 分 别 是 生成 随机 数 的 数量 n 
和 每 个 时 间 周 期 内 的 事件 数量 rate。 例 如 : 


rexp(n = 100, rate = .2) 
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上 面 的 代码 使 用 每 个 时 间 周 期 内 事件 数量 的 均值 为 2 的 指数 分 布 ， 生 成 100 个 随机 数 。 
它 可 用 于 模拟 平均 每 分 钟 呼 入 电话 0.2 次 的 情况 下 ，100 次 电话 的 时 间 间 隔 情况 (单位 为 
分 钟 ) 。 


在 针对 泊 松 分 布 或 指数 分 布 的 模拟 研究 中 ， 一 个 关键 假设 是 速率 4 在 所 考虑 的 时 间 周 期 内 
是 保持 不 变 的。 从 总 体 上 看 ， 这 一 假设 很 少 是 合理 的 。 例 如 ， 公 路 或 数据 网 络 上 的 流量 会 
随 一 天 中 的 不 同时 段 或 者 一 周 中 的 不 同日 子 而 变化 。 但 是 ， 我 们 可 以 将 时 间或 空间 切 分 为 
几乎 同等 的 几 个 部 分 ， 这 样 就 可 以 在 其 中 做 分 析 或 模拟 。 


2.10.3 故障 率 估 计 


在 许多 应 用 中 ， 事 件 发 生 率 4 是 已 知 的 ， 或 者 可 以 从 先 验 数 据 中 估计 出 来 。 但 是 对 于 极 
少 发 生 的 事件 ， 却 未 必 如 此 。 例 如 ， 飞 机 引擎 发 生 故 障 就 十 分 罕见 ， 所 以 对 于 指定 的 
引擎 类 型 ， 几 乎 没有 数据 可 用 于 估计 发 生 故 障 的 时 间 间 陋 。 如 果 完 全 没有 数据 ， 就 几乎 
没有 什么 基础 可 供 估计 事件 的 发 生 率 。 然 而 ， 我 们 可 以 做 一 些 猜 测 : 假如 经 过 20 个 小 时 
后 没有 发 生 事件 ， 那 么 就 可 以 确定 事件 的 发 生 率 不 会 是 每 小 时 一 次 。 我 们 可 以 通过 模拟 
或 者 直接 计算 概率 ， 评 估 不 同 的 假设 事件 发 生 率 ， 并 估计 出 一 个 半 值 〈 发 生 率 不 可 能 比 
它 低 )。 如 果 我 们 有 一 些 数据 ， 但 是 这 些 数 据 不 足以 对 事件 发 生 率 做 出 准确 可 靠 的 估计 ， 
那么 这 时 可 以 应 用 “ 拟 合 度 检 验 ”( 参 见 3.9 节 ) 检测 各 种 发 生 率 ， 以 确定 它们 对 观察 数 
据 的 拟 合 情 况 。 


2.10.4 韦伯 分 布 

在 某 些 情况 下 ， 事 件 发 生 率 并 不 能 随时 间 的 变化 而 保持 恒定。 如 果 事 件 的 变化 周期 远大 于 
事件 在 一 般 情况 下 的 发 生 间隔 ， 并 没有 问题 。 正 如 2.10.2 节 中 所 介绍 的 ， 我 们 只 需 将 分 析 
切 分 为 多 个 间隔 段 ， 保 持 每 段 中 的 事件 发 生 率 相对 固定 即 可 。 但 是 ， 如 果 事件 发 生 率 在 每 
个 间隔 中 也 会 发 生变 化 ， 那 么 指数 分 布 或 泊 松 分 布 就 不 再 有 用 了 。 在 机 械 故 障 问题 中 ， 机 
器 发 生 故 障 的 风险 会 随时 间 的 增加 而 增 大 ， 这 时 可 能 就 会 出 现 这 种 情况 。 韦 伯 分 布 是 指数 
分 布 的 一 种 延伸 ， 它 通过 指定 形状 参数 p， 允 许 事件 发 生 率 产生 变化 。 如 果 p>1， 那 么 事 
件 发 生 率 会 随时 间 增 大 ， 如 果 p<1， 那 么 事件 发 生 率 会 随时 间 降低 。 由 于 我 们 使 用 韦伯 分 
布 分 析 的 是 发 生 故 障 的 时 间 ， 而 非 事件 发 生 率 ， 因 此 分 布 的 第 二 个 参数 表示 的 是 特征 生 
命 ， 而 非 每 个 时 间 间 隔 中 的 事件 发 生 率 。 该 参数 也 被 称 为 比例 参数 ， 用 表示。 

在 使 用 韦伯 分 布 时 ， 需 要 估计 有 和 这 两 个 参数 。 我 们 可 以 使 用 软件 对 数据 建 模 ， 生 成 书 
伯 分 布 的 最 优 拟 合 估计 。 


在 使 用 R 代码 使 用 韦伯 分 布 生成 随机 数 时 ， 需 要 指定 三 个 参数 ， 即 生成 随机 数 的 数量 n、 
形状 参数 shape 和 比例 参数 scale。 例 如 ， 下 面 的 代码 使 用 形状 参数 为 1.5、 特 征 生 命 为 
5000 的 韦伯 分 布 ， 生 成 100 个 随机 数字 ( 即 寿 命 ) : 


rweibuLL(100 ,1.5,5000) 























































































































本 节 要 点 
。 如 果 事 件 发 生 认 为 常数 ， 那 么 可 以 用 泊 松 分 布 对 单位 时 间或 空间 内 的 事件 数量 进行 
建 模 。 
。 在 这 种 场景 下 ， 可 以 用 指数 分 布 对 两 个 事件 间 的 时 间 间 隔 或 距离 建 模 。 
。 如 果 事 件 发 生 率 会 随时 间 变 化 〈 例 如 , 设备 故障 率 的 增 大 ) ,可 以 使 用 韦伯 分 布 建 模 。 








2.10.5 ”拓展 阅读 


。 在 Tom Ryan 撰写 的 Modern Engineering Statistics 一 书 中 ， 有 一 章 专门 介绍 了 工程 应 用 
中 使 用 的 概率 分 布 。 

。 了 阅读 论文 “Predicting Equipment Failures Using Weibu Analysis and SAS Software” 和 
“Estimation the System Reliability Using Weibull Distribution”。 这 两 篇 论文 主要 从 工程 的 
角度 介绍 了 韦伯 分 布 的 使 用 情况 。 


2.11 小 结 


在 大 数据 时 代 ， 如 果 需 要 给 出 准确 的 估计 量 ， 那 么 随机 抽样 原则 依然 十 分 重要 。 与 使 用 便 
利 可 用 的 数据 相 比 ， 随 机 抽样 可 以 减 小 偏差 ， 并 生成 高 质量 的 数据 集 。 我 们 应 了 解 各 种 抽 
样 和 数据 生成 的 分 布 ， 这 样 才 能 对 估计 量 中 由 随机 变异 性 所 导致 的 交 在 误差 进行 量化 。 此 
外 ， 还 应 了 解 自助 法 是 对 观测 数据 做 有 放 回 的 抽样 。 对 于 确定 样本 估计 量 中 可 能 存在 的 误 
差 ， 自 助 法 是 一 种 “万 能 ”的 方法 ， 颇 具 吸 引力 。 
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实验 设计 是 统计 学 实践 的 基石 ， 几 乎 所 有 的 研究 领域 都 要 用 到 实验 。 实 验 设计 的 目标 是 设 
计 出 能 确认 或 推翻 某 个 假设 的 实验 。 数 据 科 学 家 需要 开展 连续 的 实验 ， 尤 其 是 与 用 户 界面 
和 产品 营销 相关 的 实验 。 本 章 概述 了 传统 的 实验 设计 方法 ， 并 指出 了 数据 科学 中 常见 的 挑 
战 。 本 章 还 将 介绍 一 些 在 统计 推断 中 常用 的 概念 ， 并 解释 它们 的 意义 以 及 与 数据 科学 的 相 
关 性 。 


如 果 看 到 统计 显著 性 、t 检 验 或 p 值 等 概念 ， 这 一 般 是 在 经 典 统计 推断 “流水 线 ” 的 场景 
下 (如 图 3-1 所 示 )。 统 计 推 断 过 程 开始 于 某 个 假设 ， 例 如 ,“ 药 物 A 要 好 于 现 有 的 标准 药 
物 ”“ 价 格 A 比 现 有 的 价格 B 更 有 利 可 图 ”"。 实 验 (例如 A/B 测试 ) 是 设计 用 于 验证 假设 
的 ， 我 们 希望 所 设计 的 实验 能 得 出 结论 性 的 结果 。 实 验 中 会 收集 并 分 析 数 据 ， 进 而 得 出 结 
论 。 推 断 (inference) 一 词 反 映 了 这 样 一 个 意图 : 将 从 有 限 数据 集 上 得 到 的 实验 结果 应 用 
于 更 大 的 过 程 或 总 体 。 





























提出 假设 失 断 /结论 














图 3-1: 经 典 的 统计 推断 流水 线 


3.1 A/B 测 试 


A/B 测试 将 实验 分 成 两 个 组 开展 ， 进 而 确定 两 种 处 理 、 产 品 、 过 程 等 中 较 优 的 一 个 。 在 两 
组 实验 中 ， 一 般 会 有 一 组 采用 现 有 的 标准 处 理 ， 或 者 是 不 执行 任何 处 理 ， 称 为 对 照 组 ， 而 
另 一 组 称 为 实验 组 。 实 验 中 的 一 个 典型 假设 是 实验 组 要 优 于 对 照 组 。 
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要 术语 

处 理 

实验 对 象 所 接触 的 东西 ， 例 如 药品 、 价 格 、Web 标题 等 。 
实验 组 

执行 特定 处 理 的 一 组 对 象 。 
对 照 组 

执行 标准 处 理 或 不 执行 处 理 的 一 组 对 象 。 
随机 化 

随机 地 分 配 实验 对 象 以 进行 处 理 的 过 程 。 
实验 对 象 

接受 处 理 者 ， 例 如 Web 访问 者 、 病 人 等 。 


检验 统计 量 
用 于 检验 处 理 效 果 的 度量 。 











A/B 测试 的 结果 易于 测量 ， 因 此 被 广泛 地 用 于 Web 设计 和 营销 中 。 下 面 列 出 了 一 些 使 用 





A/B 测试 的 例子 。 


。 测试 两 种 土壤 处 理 ， 以 确定 哪 种 土壤 更 适合 育种 。 

。 测试 两 种 疗法 ， 以 确定 哪 种 疗法 对 于 抑制 癌症 更 有 效 。 

。 测试 两 种 价格 ， 以 确定 哪 种 价格 的 净利 润 更 高 。 

。 测试 两 个 Web 标题， 以 确定 哪个 标题 会 带 来 更 多 的 点 击 量 (如 图 3-2 所 示 )。 


a 


。 测试 两 条 网 络 广告 ， 以 确定 哪 条 广告 能 转化 为 更 多 的 购买 行为 。 
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图 3-2: 市 场 营销 人 员 对 两 种 Web 展示 持续 进行 对 比 测试 
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A/B 测试 有 对 象 ， 对 象 会 分 配给 两 组 处 理 中 的 一 组 。 对 象 可 能 是 一 个 人 、 一 种 植物 种 子 
或 一 位 Web 访问 者 。 注 意 ， 对 象 需要 接受 处 理 。 在 理想 情况 下 ， 对 象 是 随机 指定 〈 即 随 
机 分 配 ) 给 一 组 处 理 的 。 这 样 ， 两 个 实验 组 之 间 的 任何 差异 ， 只 可 能 是 由 下 面 两 个 因素 
所 导致 的 。 

。 不 同 处 理 的 效果 。 

。 将 对 象 分 配 到 不 同 处 理 过 程 中 的 运气 因素 。 一 些 对 象 的 效果 本 来 就 很 好 ， 而 随机 分 配 可 

能 会 导致 效果 好 的 对 象 集中 在 处 理 A 或 处 理 B 中 。 

在 A/B 测试 中 ， 我 们 也 需要 关注 比较 A 组 和 B 组 时 使 用 的 检验 统计 量 ( 即 度量 )。 在 数据 
科学 中 ， 最 常用 的 度量 可 能 是 二 元 变量 ， 例 如 点 击 或 未 点 击 ， 购 买 或 不 购买 ， 作 次 或 未 作 
次 ， 等 等 。 我 们 可 以 将 比较 结果 归纳 为 一 个 2x2 的 表格 。 表 3-1 给 出 了 实际 价格 测试 结果 
的 一 个 2x2 的 表格 。 


表 3-1: 电子 商务 实验 结果 的 2 x 2 表格 























































































































结果 价格 A 价格 B 
点 击 转 化 为 购买 200 182 
点 击 没有 转化 为 购买 23 539 22 406 


在 比较 中 所 使 用 的 度量 ， 可 以 是 连续 变量 (例如 购买 数量 、 利 润 等 )， 也 可 以 是 计数 〈 例 
如 住院 天 数 、 访 问 的 页 面 数量 )。 两 者 的 结果 显示 存在 着 差异 。 如 果 关 广 的 并 非 点 击 广告 
的 转化 情况 ， 而 是 每 次 页 面 浏览 的 收益 情况 ， 那 么 在 常见 的 软件 输出 中 ， 表 3-1 的 价格 济 
试 结果 大 致 如 下 。 


Revenue/page-view with price A: mean = 3.87, SD = 51.10 




















Revenue/page-view with price B: mean = 4.11, SD = 62.98 
结果 中 的 SD 表示 的 是 各 组 中 值 的 标准 偏差 。 


一 些 统计 软件 (包括 RR 在 内 ) 会 默认 生成 输出 ， 但 不 能 因此 认为 所 有 的 输 
出 信息 都 是 有 用 的 ， 或 是 与 结果 相关 的 。 我 们 可 以 看 到 ， 上 面 给 出 的 标准 偏 
差 就 并 非 十 分 有 用 。 它 们 表明 数据 中 可 能 存在 大 量 的 负 值 ， 但 我 们 知道 ， 收 
入 值 是 不 可 能 为 负 的 。 这 是 由 于 数据 集 由 少量 较 大 的 值 (表示 点 击 转化 为 购 
买 ) 以 及 大 量 的 零 值 (表示 点 击 未 转化 为 购买 ) 组 成 。 此 类 数据 的 变异 性 很 
难 用 单个 数字 总 结 。 相 对 于 标准 偏差 而 言 ， 更 合理 的 度量 是 偏离 均值 的 绝对 
偏差 均值 (A 组 是 7.68，B 组 是 8.15 ) 。 


3.1.1 为 什么 要 有 对 照 组 

在 实验 中 为 什么 不 能 抛 开 对 照 组 ， 只 对 一 个 组 应 用 我 们 所 关注 的 处 理 ， 并 将 结果 与 先前 的 
经 验 进 行 对 比 ? 

这 是 因为 ， 如 果 没 有 对 照 组 ， 就 不 能 确保 “其 他 条 件 均 一 样 "， 也 不 能 确保 所 有 差异 的 确 
是 由 处 理 (或 偶然 导致 的 。 除 了 处 理 ， 对 照 组 与 处 理 组 具有 相同 的 条 件 。 如 果 我 们 只 天 
比 “ 基 线 ” 或 先前 的 经 验 ， 那 么 除了 处 理 ， 可 能 还 有 其 他 一 些 因素 存在 差异 。 
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单 盲 研究 和 双 盲 研究 

在 单 盲 研 究 中 ， 实 验 对 象 本 身 并 不 知道 自己 接受 的 是 处 理 A 还 是 处 理 B。 如 果 
对 象 知道 自身 所 接受 的 处 理 ， 那 么 会 对 响应 产生 影响 。 双 盲 研究 是 指 研究 者 和 
协助 者 (例如 医学 研究 中 的 医生 和 护士 ) 都 不 知道 哪个 对 象 接受 了 哪 种 处 理 。 如 
果 处 理 是 公开 透明 的 ， 则 盲 测 是 不 可 行 的 ， 例 如 电脑 与 心理 学 家 间 的 认 知 疗法 。 


在 数据 科学 中 ，A/B 测试 常用 于 Web 领域 ， 其 中 的 处 理 可 以 是 网 页 的 设计 、 产 品 的 价格 、 
标题 用 语 等 。 我 们 需要 思考 如 何 遵 守 随 机 化 的 原则 。 通 常 ， 实 验 对 象 是 Web 访问 者 ， 所 关 
注 的 结果 是 点 击 数 、 购 买 、 访 问 时 长 、 访 问 的 页 面 数量 、 某 个 页 面 是否 被 访问 等 。 在 标准 
的 A/B 测试 中 ， 需 要 预先 确定 一 个 度量 。 我 们 可 能 需要 采集 多 种 行为 度量 ， 而 且 这 些 度量 
可 能 是 我 们 所 关注 的 。 但 是 ， 如 果 如 果 希 望 实验 能 在 处 理 A 和 处 理 B 这 两 者 之 间 做 出 一 个 
决策 ， 那 么 就 需要 预先 确立 一 个 度量 ， 即 检验 统计 量 。 如 果 在 实验 开展 后 再 去 选择 某 个 检 
验 统 计量 ， 这 无 疑 会 引入 研究 人 员 的 一 些 偏好 。 


3.1.2 为 什么 只 有 处 理 A 和 B， 没 有 C、D…… 


A/B 测试 在 营销 和 电子 商务 领域 十 分 常见 ， 但 并 非 唯一 的 统计 实验 类 型 。 我 们 还 可 以 加 入 
一 些 其 他 类 型 的 实验 ， 也 可 以 对 实验 对 象 做 重复 的 测量 。 例 如 ， 一 些 药物 试验 存在 受 试 者 
( 即 实验 对 象 ) 稀缺 、 成 本 高 且 需 要 不 断 寻找 的 问题 ， 因 此 其 实验 设计 中 会 有 多 个 终止 实 
验 并 得 出 结论 的 偶然 性 。 


传统 的 统计 实验 设计 关注 的 是 如 何 回答 有 关 具 体 处 理 的 效果 的 静态 问题 。 对 于 下 面 列 出 的 
两 个 问题 ， 数 据 科学 家 更 关注 的 是 问题 2。 
问题 1: 价格 A 和 价格 B 之 间 的 差异 是 否 是 统计 显著 的 ? 
问题 2: 在 多 种 可 能 的 价格 中 ， 哪 种 价格 最 好 ? 
鉴于 此 ， 数 据 科学 家 采用 的 是 一 种 相对 新 颖 的 实验 设计 方法 ， 即 多 臂 老虎 机 算法 (参见 
3.10 节 ) 。 




























































































获得 实验 许可 

开展 科学 研究 和 医疗 研究 时 ， 如 果实 验 对 象 是 人 ， 那 么 通常 需要 获得 他 们 的 
许可 ， 并 获得 某 机 构 审查 委员 会 的 批准 。 作 为 持续 性 操作 的 一 部 分 的 商业 实 
验 ， 几 乎 从 未 获得 许可 。 大 多 数 情况 下 ， 例 如 在 确定 价格 的 实验 、 确 定 显示 
哪个 标题 或 是 应 该 提供 哪个 报价 的 实验 中 ， 这 种 做 法 已 被 广泛 接受 。 然 而 在 
2014 年 ，Facebook 就 在 这 个 普遍 接受 的 问题 上 磁 了 壁 。 该 公司 当时 开展 了 
一 项 有 关 用 户 新 闻 推 送 中 的 情感 影响 的 实验 。Facebook 利用 情感 分 析 技 术 将 
新 闻 推 送 帖子 分 为 正面 情感 和 负面 情感 两 类 ， 然 后 更 改 了 展示 给 用 户 的 内 容 
的 正 负面 情感 的 平衡 。Facebook 随机 选取 了 一 些 用 户 ， 向 他 们 推送 正面 情感 
的 帖子 ， 同 时 向 另 一 些 用 户 推送 负面 情感 的 帖子 。Facebook 发 现 ， 阅 读 正面 
情感 帖子 的 用 户 更 倾向 于 发 布 正面 情感 的 帖子 ， 反 之 亦 然 。 尽 管 该 实验 的 影 
响 不 大 ， 但 Facebook 是 在 未 经 用 户 许可 的 情况 下 开展 的 实验 ， 因 而 受到 了 
不 少 批评 。 一 些 人 认为 ， 如 果 Facebook 在 实验 中 向 一 些 极端 抑郁 的 用 户 推 
送 了 负面 内 容 的 新 闻 ， 那 么 有 可 能 会 导致 此 类 用 户 崩溃 。 
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本 节 要 点 
。 将 实验 对 象 分 配给 两 组 或 更 多 组 ， 各 组 的 条 件 完 全 相同 ， 只 是 要 接受 的 处 理 不 同 。 
。 在 理想 情况 下 ， 实 验 对 象 是 随机 分 配给 各 组 的 。 











3.1.3 ”拓展 阅读 


。 两 组 进行 对 比 ( 即 A/B 测试 ) 是 传统 统计 学 中 一 种 最 基本 的 测试 。 几 乎 任何 统计 学 入 
门 书 都 会 全 面 地 介绍 A/B 测试 的 设计 原则 和 推断 过 程 。Peter Bruce 撰写 的 Introductory 
Statistics and Analytics: 4 Resampling Perspective 一 书 着 重 介绍 了 如 何在 数据 科学 场景 中 
使 用 A/B 测试 和 重 抽样 。 

。 在 Web 测试 中 ， 测 试 的 逻辑 性 和 统计 学 方法 同样 具有 挑战 性 。 推 荐 从 Google Analytics 
中 关于 实验 的 帮助 章节 人 和 人手。 

。 互联 网 上 有 大 量 的 A/B 测试 指南 ， 其 中 给 出 的 建议 须 谨慎 对 待 。 例 如 :“ 等 到 大 约 有 
1000 名 访问 者 后 ,确保 运行 测试 一 周 时 间 。” 在 统计 学 中 ， 此 类 通用 经 验 法 则 之 无 意义 。 
详细 内 容 参 见 3.11 市 。 


3.2 假设 检验 


假设 检验 也 称 显 著 性 检验 ， 在 公开 发 表 的 传统 统计 学 研究 中 随处 可 见 。 假 设 检 验 的 目的 是 
确定 一 个 观测 到 的 效果 是 否 是 由 随机 性 (random chance) 造成 的 。 





























主要 术语 

零 假设 

完全 归 答 于 偶然 性 的 假设 。 
备 择 假设 

与 索 假 设 相反 ， 即 实验 者 希望 证 实 的 假设 。 
单 向 检验 

在 假设 检验 中 ， 只 从 一 个 方向 上 计数 偶然 性 结果 。 
双向 检验 


在 假设 检验 中 ， 从 正 反 两 个 方向 上 计数 偶然 性 结果 。 














在 构建 A/B 测试 (参见 3.1 节 ) 时 ， 我 们 通常 会 预先 构想 一 个 假设 ， 例 如 假设 价格 B 可 
能 会 带 来 更 高 的 利润 。 那 么 我 们 为 什么 需要 做 出 一 个 假设 ? 为 什么 不 能 只 是 查看 实验 的 结 
果 ， 然 后 选择 处 理 结果 更 好 的 那 一 组 ? 
问题 的 答案 在 于 ， 人 们 在 思想 上 倾向 于 低估 天 然 随 机 行为 的 范围 。 一 个 典型 的 例证 就 是 难 
以 预料 极端 事件 ， 即 黑 天 鹅 事 件 (参见 2.8 节 )。 另 一 个 例证 是 人 们 倾向 于 将 随机 事件 曲解 
为 具有 某 种 显著 性 的 模式 。 为 此 ， 人 们 提出 了 统计 假设 检验 方法 ， 目 的 是 使 研究 人 员 免 受 
随机 性 的 思 措 。 
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曲解 随机 性 


我 们 可 以 发 现 ， 人 们 倾向 于 在 实验 中 低估 随机 性 。 让 一 些 朋友 构想 抛 50 次 硬币 的 结 
果 ， 并 写 下 一 系列 随机 的 HH (正面 朝 上 ) 和 T (反面 朝 上 )。 然 后 ， 让 这 些 朋 友 实 际 去 
抛 50 次 硬币 ， 并 记录 结果 。 将 真正 的 硬币 抛 搓 结 果 和 人 工 生成 的 结果 各 放 一 处 。 我 们 
很 容易 看 出 哪个 结果 是 真实 的 ， 因 为 真实 的 结果 中 会 出 现 一 组 连续 的 百 或 T。 在 真实 
的 抛 50 次 硬币 中 ， 常 常 能 看 见 五 六 个 连续 的 日 或 T。 但是， 我 们 大 多 数 人 在 构想 随机 
抛 硬 币 的 结果 时 ， 如 果 已 经 连续 有 三 四 个 日 ， 就 会 瞳 示 自己 ,最 好 在 这 里 就 切换 为 工 ， 
这 样 序列 看 上 去 更 随机 一 些 。 

另外 ， 抛 硬币 实验 也 说 明了 一 个 问题 。 如 果 的 确 在 现实 世界 中 看 到 了 类 似 于 连续 出 现 


6 个 瑞 这 样 的 事情 ， 例 如 一 个 标题 比 另 一 个 标题 好 10%， 我们 倾向 于 将 其 归 因 于 真实 
情况 ， 而 非 巧 合 。 











在 一 个 设计 适当 的 A/B 测试 中 ， 处 理 A 和 处 理 B 之 间 任 何 可 观测 到 的 差异 ， 必 定 是 由 下 
面 两 个 因素 之 一 所 导致 的 。 


。 分 配对 象 中 的 随机 可 能 性 
。 处 理 A 和 处 理 B 之 间 的 真实 差异 


统计 假设 检验 是 对 A/B 测试 (或 任何 随机 实验 ) 的 进一步 分 析 ， 意 在 评估 随机 性 是 否 可 以 
里 地 解释 A 组 和 B 组 之 间 观 测 到 的 差异 。 


3.2.1 零 假设 

假设 检验 使 用 的 逻辑 是 :“ 鉴 于 人 们 倾向 于 对 异常 的 随机 行为 做 出 反应 ， 并 将 其 解释 为 有 
意义 的 真实 行为 ， 我 们 要 在 实验 中 证 明 ， 组 间 差 异 要 比 偶然 性 可 能 导致 的 差异 更 极端 。 
这 里 包含 了 一 个 基线 假设 ， 即 各 个 处 理 是 等 同 的 ， 并 且 组 间 差 异 完全 是 由 偶然 性 所 导致 
的 。 我 们 称 该 基线 假设 为 零 假 设 。 事 实 上， 我 们 希望 能 证 明 零 假设 是 错误 的 ， 并 证 明 A 组 
和 B 组 结果 之 间 的 差异 要 比 偶然 性 可 能 导致 的 差异 更 大 。 

一 种 实现 方式 是 通过 重 采 样 置换 过 程 ， 对 A 组 和 B 组 的 结果 做 随机 混 洗 ， 并 反复 将 数据 分 配 为 
规模 相近 的 组 ， 之 后 查看 实验 得 到 的 差异 与 观测 差异 同样 极端 的 频率 。 更 多 内 容 参见 3.3 市 。 


3.2.2 备 择 假设 

假设 检验 本 身 不 仅 包括 零 假设 ， 还 包括 一 个 相抵 消 的 备 择 假设 。 下 面 通过 一 些 例子 来 说 明 。 

。 零 假设 是 “A 组 和 B 组 的 均值 间 没 有 差异 ”"， 备 择 假设 是 “A 不 同 于 B”( 可 能 更 大 ， 也 
可 能 更 小 )。 

。 零 假设 是 “A < B”， 备 择 假设 是 “B > A”。 

。 零 假 设 是 “B 不 会 比 A 大 x%”， 备 择 假 设 是 “B 比 A 大 x%”。 

总 而 言 之 ， 零 假设 和 备 择 假设 必须 涵盖 了 所 有 的 可 能 性 。 假 设 检验 的 结构 取决 于 零 假设 的 

性 质 。 
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3.2.3 ” 单 向 假设 检验 和 双向 假设 检验 


A/B 测试 通常 是 根据 一 个 已 有 的 默认 选项 (比如 A) 去 测试 一 个 新 的 选项 (比如 B), 并 且 
假定 除非 证 明 B 明显 优 于 A， 否 则 我 们 将 坚持 使 用 A。 在 这 种 情况 下 ， 我 们 需要 一 个 假设 
检验 来 免 受 倾向 于 B 的 偶然 性 的 苏 骗 。 我 们 并 不 在 意 在 另 一 个 方向 上 是 否 会 受 偶然 性 的 思 
和 弄 ， 因 为 除非 能 证 明 B 更 好 ， 否 则 我 们 将 坚持 A。 所 以 ， 我 们 需要 一 种 有 方向 的 备 择 假设 
( 即 B 比 A 好 )。 这 种 情况 下 ,我们 可 以 使 用 单 向 (或 “ 单 尾 ”) 假设 检验 。 这 意味 着 极端 
偶然 性 只 会 导致 从 一 个 方向 上 计 入 p 值 。 


如 果 想 要 假设 检验 使 我 们 免 受 任意 方向 上 偶然 性 的 轧 弄 ， 那 么 备 择 假设 应 该 是 双向 的 ( 即 
A 不同 于 B， 它 可 能 更 大 ,或 是 更 小 )。 在 这 种 情况 下 ， 我 们 要 使 用 双向 (或 “ 双 尾 ”) 假 
设 。 这 意味 着 极端 偶然 性 导致 可 以 从 任意 一 个 方向 上 计 入 p 值 。 


单 向 假设 检验 通常 遵循 A/B 决策 过 程 ， 即 需要 指定 一 个 选项 ， 并 且 除 非 证 明 另 一 个 选项 更 
好 ， 否 则 将 指定 该 选项 为 “默认 ”的 。 然 而 ， 包 括 R 在 内 的 一 些 软件 的 默认 输出 通常 提供 
的 是 双向 测试 ， 并 且 许 多 统计 学 家 为 了 避免 争议 ， 也 会 选择 更 为 保守 的 双向 测试 。 选 择 单 
向 还 是 双向 ， 这 是 一 个 让 人 困惑 的 问题 ， 但 是 该 问题 与 数据 科学 的 关系 并 不 大 。 在 数据 科 
学 中 , bp 值 的 计算 精度 并 非 十 分 重要 。 






























































本 节 要 点 
。 零 假设 的 逻辑 理念 休 现 为 没有 特殊 事件 发 生 ， 任 何 观察 到 的 效果 都 是 由 随机 偶然 导 
致 的 。 
。 假设 检验 假定 堆 假 设 为 真 ， 创 建 “ 零 模 型 ”( 一 种 概率 模型 ) ， 并 检验 所 观察 到 的 效 
果 是 否 是 该 模型 的 合理 结果 。 











3.2.4 ”拓展 阅读 


。 Leonard Mlodinow 撰写 的 The Drunkards Walk: How Randomness Rules Our Lives 一 书 综 
述 了 “随机 性 控制 我 们 生活 ”的 方式 。 

。 David Freedman、Robert Pisani 和 Roger Purves 的 经 典 统 计 学 教材 Statistics (第 4 版 )。 
该 书 没有 采用 罗列 数学 理论 的 方式 ， 并 很 好 地 介绍 了 大 部 分 统计 学 内 容 ， 其 中 包括 假设 
检验 。 

。 Peter Bruce 撰写 的 Introductory Statistics and Analytics: 4A Resampling Perspective 一 书 ， 从 

重 抽 样 角度 介绍 了 假设 检验 的 概念 。 


3.3 重 抽 样 


在 统计 学 中 ， 重 抽样 是 指 从 观测 数据 中 反复 地 抽取 数据 值 ， 目 标 是 评估 一 个 统计 量 中 的 随 
机 变异 性 。 重 抽样 还 可 用 于 评估 并 提高 一 些 机 器 学 习 模 型 的 准确 性 。 例 如 ， 对 于 使 用 多 个 
自助 数据 集 构 建 的 决策 树 模 型 ， 可 以 通过 Bagging 过 程 计算 其 平均 值 ， 参 见 6.3 节 。 


重 抽样 过 程 主 要 有 两 种 类 型 ， 即 自助 法 和 置换 检验 。 自 助 法 用 于 评估 一 个 估计 量 的 可 靠 
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性 ， 我 们 在 前 面 已 经 做 了 介绍 (参见 2.4 市 )。 本 市 将 介绍 用 于 检验 假设 的 置换 检验 ， 它 通 
常 涉及 两 组 或 多 组 。 











主要 术语 
置换 检验 
将 两 组 或 多 组 样本 组 合 在 一 起 ， 并 将 观测 值 随机 地 (或 穷尽 地 ) 重新 分 配给 重 抽样 。 
同义词 : 随机 化 检验 、 随 机 置换 检验 、 准 确 检 验 
有 放 回 ， 无 放 回 
在 抽样 时 ， 所 抽取 的 元 素 在 下 一 次 抽取 前 是 否 放 回 样本 中 。 











3.3.1 置换 检验 


置换 过 程 涉 及 两 组 或 多 组 样本 ， 通 常 是 A/B 测试 或 其 他 假设 检验 中 的 组 。 置 换 意味 着 改变 
一 组 值 的 顺序 。 要 对 一 个 假设 进行 置换 检验 ， 首 先 要 将 从 A 组 和 B 组 (当然 还 可 以 包括 其 
他 组 ， 例 如 C、D……) 中 得 到 的 结果 组 合 在 一 起 。 这 就 是 零 假 设 的 逻辑 ， 即 无 论处 理 指 
定 给 哪个 组 ， 都 是 无 差别 的 。 然 后 ， 我 们 从 组 合集 中 随机 抽取 出 各 个 组 ， 并 查看 组 间 的 差 
异 情况 ， 实 现 对 假设 的 检验 。 置 换 过 程 如 下 。 


(1) 将 各 个 组 得 出 的 结果 组 合 为 一 个 数据 集 。 

(2) 对 组 合 得 到 的 数据 做 随机 混 洗 ， 然 后 从 中 随机 抽取 (有 放 回 ) 一 个 规模 与 A 组 相同 的 
重 抽样 样本 。 

(3) 在 余下 的 数据 中 ， 随 机 抽取 (无 放 回 ) 一 个 规模 与 B 组 相同 的 重 抽样 样本 。 

(4) 如果 还 有 C 组 、 DD 组 其 至 更 多 的 组 ,执行 同样 的 操作 。 

(5) 无 论 对 原始 样本 计算 的 是 哪 一 种 统计 量 或 估计 量 (例如 ， 组 比例 差异 )， 现 在 对 重 抽 样 
进行 重新 计算 ， 并 记录 结果 。 这 构成 了 一 次 置换 迭代 。 

(6) 重复 上 述 步骤 尺 次 ， 生 成 检验 统计 量 的 置换 分 布 。 

现在 我 们 回头 查看 所 观测 到 的 组 间 差异 ， 并 与 置换 差异 进行 对 比 。 如 果 观 测 到 的 差异 位 于 

置换 差异 内 ， 那 么 置换 检验 的 结果 并 不 能 证 实 任 何事 情 ， 因 为 观测 到 的 差异 落 在 偶然 可 能 

产生 之 差异 的 范围 内 。 但 是 ， 如 果 观 测 到 的 差异 大 部 分 落 在 置换 分 布 之 外 ， 那 么 我 们 就 可 

以 得 出 “与 偶然 性 无 关 ” 这 一 结论 。 如 果 使 用 专业 术语 描述 ， 我 们 称 差异 是 统计 显著 的 

(参见 3.4 节 )。 


3.3.2 例子 : Web 黏 性 


有 一 家 公司 提供 较 高 价格 的 服务 。 现 在 ， 该 公司 想 要 测试 两 种 Web 显示 ， 以 确定 哪 一 种 能 
带 来 更 高 的 销售 额 。 由 于 该 公司 提供 的 服务 价格 较 高 ， 因 此 销量 并 不 天， 而 且 销售 周期 很 
长 。 要 想 确定 哪 种 Web 显示 的 效果 更 好 ， 该 公司 需要 很 长 的 时 间 才 能 积累 到 足够 多 的 销售 
数据 。 鉴 于 此 ， 该 公司 决定 使 用 一 种 代理 变量 来 度量 结果 ， 并 使 用 详细 描述 公司 服务 的 内 
部 页 面 替 代 。 
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代理 变量 是 一 种 可 以 代表 我 们 所 关注 的 真正 变量 的 变量 。 真 正 关 注 的 变量 可 
能 不 可 用 ， 也 可 能 度量 的 成 本 太 高 或 耗 时 过 长 。 例 如 ， 在 气候 研究 中 ， 远 十 
冰 忆 的 含 氧 量 被 用 作 温 度 的 代理 变量 。 最 好 至 少 有 一 点 关于 真正 变量 的 数 
据 ， 这 样 可 以 评估 真正 变量 与 代理 变量 间 的 关联 程度 。 


在 本 例 中 ， 一 个 潜在 的 代理 变量 是 着 陆 页 上 的 点 击 数 。 当 然 ， 更 好 的 代理 变量 是 访问 者 在 页 面 
上 停留 的 时 间 。 可 以 认为 ， 如 果 一 个 Web 显示 页 面 能 吸引 人 们 关注 更 长 的 时 间 ， 那 么 它 就 可 
能 会 带 来 更 高 的 销售 额 。 因 此 ， 我 们 这 里 所 采用 的 度量 是 页 面 A 与 页 面 B 的 平均 会 话 时 间 。 


由 于 检验 中 所 使 用 的 Web 页 面 是 内 部 专用 的 ， 因 此 并 不 会 有 大 量 的 访问 者 。 另 外 应 注意 
的 是 ， 我 们 使 用 了 Google Analytics (GA) 工具 测定 会 话 时 间 ， 但 是 GA 无 法 测定 访问 者 
上 次 访问 的 会 话 时 间 。 不 过 ，GA 并 不 从 数据 中 删除 该 会 话 ， 而 是 将 记录 置 为 零 ， 因 此 我 
们 需要 对 数据 做 一 些 额 外 的 处 理 ， 以 从 数据 中 删除 这 些 会 话 。 基 于 此 ， 我 们 就 两 种 不 同 的 
Web 显示 合计 得 到 了 36 个 会 话 ， 其 中 页 面 A 的 会 话 为 21 个 ， 页 面 B 的 会 话 为 15 个 。 为 
了 直观 地 比较 会 话 时 间 ， 我 们 使 用 ggptLot 实现 了 箱 线 图 的 并 排 绘制 。 


ggplot(session times, aes(x=Page, y=Time)) + 
geom_boxplot() 


生成 的 箱 线 图 如 图 3-3 所 示 。 图 中 显示 了 页 再 
值 计算 方式 如 下 所 示 。 


mean_a <- mean(session_ times[session_times['Page']=='Page A', 'Time']) 
mean_b <- mean(session_ times[session_ times['Page']=='Page B', 'Time']) 
mean_b - mean_a 

[1] 35.66667 





















































B 上 共有 比 页 面 A 更 长 的 会 话 时 间 。 各 组 的 均 
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图 3-3: 页 面 A 和 页 面 B 的 会 话 时 间 
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页 面 B 的 会 话 时 间 更 长 ， 平 均 比 页 面 A 高 出 约 35.7 秒 。 但 问题 在 于 ， 这 一 差距 是 否 落 在 
随机 性 可 能 生成 的 范围 内 ， 即 是 否 是 统计 显著 的 。 要 回答 这 一 问题 ， 一 种 方法 是 应 用 置换 
检验 ， 将 所 有 会 话 时 间 组 合 在 一 起 ， 然 后 反复 做 随机 混 洗 ， 再 将 数据 分 为 一 个 具有 21 个 
观测 值 的 组 (页面 A,， n=21) 和 一 个 具有 15 个 观测 值 的 组 (页面 B, n= 15)。 


我 们 实现 了 一 个 进行 置换 检验 的 函数 。 该 函数 可 以 将 36 个 会 话 时 间 随 机 分 配给 一 个 具有 
21 个 元 素 的 组 (页面 A) 和 一 个 具有 15 个 元 素 的 组 (页面 B)。 这 个 函数 的 代码 如 下 。 


perm_fun <- function(x, n1, n2) 
{ 
n <- n1 + n2 
idx_b <- sample(1:n, n1) 
idx_a <- setdiff(1:n, idx_b) 
mean_diff <- mean(x[idx_b]) - mean(x[idx_a]) 
return(mean_diff) 


} 


该 函数 的 工作 原理 是 ， 无 放 回 地 抽样 n2 次 ， 并 分 配给 B 组 ， 余 下 的 nl 次 抽样 分 配给 A 

组 。 函 数 返 回 两 组 均值 之 间 的 差异 。 我 们 指定 n2 = 15，nl = 21， 并 调用 该 函数 R= 1000 

次 ， 然 后 绘制 所 生成 的 会 话 时 间 差 异 分 布 情况 的 直方 图 。 
perm diffs <- rep(0, 1000) 
for(i in 1:1000) 

perm_diffs[i] = perm_fun(session times[,'Time'], 21, 15) 

hist(perm diffs, xlab='Session time differences (in seconds)') 
abline(v = mean_b - mean_a) 


图 3-4 显示 了 生成 的 直方 图 。 从 图 中 可 以 看 出 ， 对 于 页 面 会 话 时 间 ， 随 机 置换 的 均值 差异 
通常 会 超出 观测 到 的 差异 〈 图 中 的 垂直 线 )。 这 表明 ， 页 面 A 和 页 面 B 会 话 时 间 间 的 观测 
差异 落 在 随机 变异 的 范围 内 ， 因 此 不 是 统计 显著 的 。 
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图 3-4: 页 面 A 和 页 面 B 会 话 时 间 差 异 的 频数 分 布 
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3.3.3 ”穷尽 置换 检验 和 自助 置换 检验 


置换 检验 除了 使 用 前 面 介 绍 的 随机 混 洗 过 程 (也 称 随机 置换 检验 或 随机 检验 ) 之 外 ， 还 有 
两 种 重要 变 体 : 


。 穷尽 (exhaustive) 置换 检验 
。 自助 (bootstrap〉 置 换 检验 


穷尽 置换 检验 并 不 是 随机 混 洗 并 分 组 数据 ， 而 是 尝试 所 有 可 能 的 分 组 。 穷 尽 置 换 检验 只 适 
用 于 规模 较 小 的 样本 。 如 果 做 大 量 的 重复 混 洗 ， 那 么 随机 置换 检验 的 结果 会 近似 于 穷尽 置 
换 检验 的 结果 ， 并 在 极限 上 逼近 。 穷 尽 置换 检验 有 时 也 被 称 为 准确 检验 ， 因 为 其 统计 学 属 
性 确保 了 零 模 型 不 会 被 检验 为 比 a 值 水 平 更 显著 (参见 3.4 节 )。 


自助 置换 检验 是 在 置换 检验 第 二 步 和 第 三 步 的 抽取 中 ， 进 行 有 放 回 抽样 ， 而 非 无 放 回 抽 
样 。 这 样 ， 重 抽样 过 程 不 仅 建 模 了 随机 分 配对 象 给 处 理 的 过 程 ， 而 且 建 模 了 从 总 体 中 随机 
抽取 对 象 的 过 程 。 这 两 个 都 是 统计 学 过 程 ， 但 是 它们 之 间 的 差别 过 于 复杂 ， 因 而 不 被 数据 
科学 实践 所 关注 。 


3.3.4 置换 检验 : 数据 科学 的 底线 

在 探索 随机 变异 性 中 ， 置 换 检 验 是 一 种 十 分 有 用 的 启发 式 过 程 。 它 很 容易 编码 ， 也 很 容易 
音 解 和 解释 。 针 对 统计 学 中 那些 基于 公式 的 形式 主义 和 “ 假 决 定论 "， 置 换 检 验 提 供 了 切 
实 可 行 的 绕 行 方法 。 

不 同 于 依赖 于 统计 学 公式 的 方法 ， 重 抽样 的 一 个 优点 在 于 给 出 了 一 种 更 加 近乎 于 “万 能 ” 
的 推断 方法 。 它 所 适用 的 数据 可 以 是 数值 ， 也 可 以 是 二 元 的 ;样本 规模 可 以 相同 ， 也 可 以 
不 同 ; 并 且 无 须 假设 数据 符合 正 态 分 布 。 







































































YH 


























本 节 要 点 
。 置换 检验 将 多 个 样本 组 合 在 一 起 ， 并 做 随机 混 洗 。 
。 对 混 洗 后 的 值 做 分 组 并 重 抽样 ， 计 算 我 们 感 兴趣 的 统计 量 。 
。 重复 上 述 过 程 ， 并 在 表格 中 记录 重 抽样 统计 量 的 情况 。 
。 对 比 统计 量 的 观测 值 与 重 抽样 分 布 ， 就 可 以 判定 观测 到 的 样本 间 差 异 是 否 由 偶然 性 
导致 的 。 














= 
3.3.5 ”拓展 阅读 
。 Eugene Edgington 和 Patrick Onghena 合 著 的 Randomization Tests。 不 要 过 度 沉 渭 于 该 书 
中 的 非 随 机 抽样 内 容 。 
。 Peter Bruce 撰写 的 Introductory Statistics and Analytics: A Resampling Perspective 一 书 。 
_、 i 
3.4 ”统计 显著 性 和 p 值 


统计 学 家 引入 了 统计 显著 性 的 概念 ， 用 于 衡量 一 个 实验 (也 可 以 是 对 已 有 数据 的 研究 ) 所 
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生成 的 结果 是 否 会 比 随机 情况 下 可 能 给 出 的 结果 更 极端 。 如 果 生 成 的 结果 超出 了 随机 变异 
的 范围 ， 则 我 们 称 它 是 统计 显著 的 。 








主要 术语 
p 值 
对 于 一 个 加 入 了 罕 假 设 的 偶然 性 模型 ，p 值 指 得 到 与 观测 结果 一 样 不 寻常 或 极端 
的 结果 的 概率 。 
a 值 
在 实际 结果 的 确 是 统计 显著 的 情况 下 ，a 值 指 偶然 性 结果 必须 超出 的 “不 寻常 性 ” 
概率 的 阅 值 。 
第 一 类 错误 
错误 地 将 一 个 由 随机 导致 的 效果 归结 为 真 。 
第 二 类 错误 
错误 地 将 一 个 为 真 的 效果 归结 为 由 随机 导致 的 。 











以 表 3-2 为 例 ， 表 中 数据 是 3.1 节 中 Web 测试 的 结果 。 
表 3-2: 电子 商务 实验 结果 的 2 x 2 表格 





结果 价格 A 价格 B 
点 击 转化 为 购买 200 182 
点 击 没有 转化 为 购买 23 539 22 406 





价格 A 的 转化 情况 比价 格 B 好 近乎 5% (0.8425% 对 比 0.8057%， 差 异 为 0.0368%)。 当 业 

量 很 大 时 ， 这 一 差异 就 会 具有 显著 的 意义 。 一 个 有 超过 4.5 万 条 数据 的 集合 ， 完 全 可 以 

被 视 为 “大 数据 "， 没 有 必要 做 统计 显著 性 检验 ， 统 计 显著 性 检验 主要 针对 的 是 小 规模 样 

本 中 的 抽样 变异 性 。 不 过 我 们 也 能 看 到 ， 此 例 中 的 转化 率 非 常 低 ， 甚 至 小 于 1%， 以 至 于 

实际 有 意义 的 值 ( 即 转化 ) 只 有 数 百 个 。 事 实 上 ， 所 需 的 样本 规模 取决 于 转化 率 。 我 们 可 

以 使 用 重 抽样 ， 检 验 价格 A 与 价格 B 之 间 的 转化 差异 是 否 位 于 随机 变异 的 范围 内 。 这 里 所 

说 的 随机 变异 (chance variation)， 是 指 在 概率 模型 中 加 入 “两 者 在 转换 率 上 不 存在 差异 ” 

这 一 零 假设 后 ， 由 模型 生成 的 随机 变异 性 (参见 3.2.1 节 )。 下 面 我 们 给 出 一 个 置换 过 程 ， 

该 过 程 的 目的 是 要 回答 如 下 问题 :“ 如 果 两 种 价格 具有 相同 的 转换 率 ， 那 么 随机 变异 的 方 

差 能 否 产生 5% 的 差异 ? ” 

(D 将 所 有 的 样本 结果 置 于 同一 个 桶 中 。 同 一 个 桶 表示 假定 两 种 价格 具有 相同 的 转换 率 。 在 
本 例 中 ， 我 们 有 200 + 182 = 382 个 1，23539 + 22406 = 45945 个 0， 这 样 转换 率 为 382/ 
(45945 + 382) = 0.008246 = 0.8246% 。 

(2) 在 桶 中 做 随机 混 洗 ， 并 从 中 抽出 规模 为 23 739 (与 价格 A 的 n 值 相同 ) 的 重 抽样 ， 记 
录 抽 样 中 1 的 个 数 。 

(3) 记录 桶 中 余下 22 588 (与 价格 B 的 n 值 相同 ) 个 数据 点 中 1 的 个 数 。 

(4) 记录 两 者 中 1 的 比例 在 百 分 位 数 上 的 差异 。 
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(5) 重复 第 2 步 到 第 4 步 多 次 。 
(6) 计算 


下 古 


其 中 差异 大 于 或 等 于 0.0368% 的 频数 。 
， 我 们 再 次 使 用 3.3.2 节 中 定义 的 函数 perm_fun， 创 建 随机 置换 转换 率 差 异 的 直方 图 。 


obs_pct_diff <- 100*(200/23739 - 182/22588) 
conversion <- c(rep(0, 45945), rep(1, 382)) 
perm diffs <- rep(0, 1000) 
for(i in 1:1000) 

perm_diffs[i] = 100*perm_fun(conversion, 23739, 22588 ) 
hist(perm_diffs, xlab='Session time differences (in seconds)') 
abline(v = obs_pct_diff) 








生成 的 绘图 如 图 3-5 所 示 ， 图 中 显示 的 直方 图 是 1000 次 重 抽样 的 结果 。 在 本 例 中 ， 我 们 观 
察 到 的 差异 0.0368 落 在 随机 差异 的 范围 内 。 
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图 3-5: 价格 A 和 价格 B 的 转换 率 差异 的 频数 分 布 


3.4.1 p 值 

在 衡量 统计 显著 性 时 ， 简 单 地 查看 绘图 并 不 是 一 个 非常 精确 的 方法 ， 人 们 更 关注 的 是 p 
值 。 p 值 表示 随机 模型 生成 的 结果 比 观测 结果 更 极端 的 频数 。 在 估计 置换 检验 的 p 值 时 ， 
我 们 可 以 采用 置换 检验 中 生成 大 于 或 等 于 观测 差异 值 的 检验 次 数 所 占 的 比例 。 





















































mean(perm_diffs > obs_pct_diff) 
[1] 0.308 








结果 显示 p 值 为 0.308， 这 意味 着 随机 性 给 出 的 差异 ， 有 望 在 约 30% 的 情况 下 大 于 或 等 于 
观测 差异 '。 




















注 1: 此 处 p 值 的 计算 具有 随机 性 ， 因 此 在 实际 运行 示例 程序 时 ， 给 出 的 p 值 可 能 是 一 个 与 本 例 输出 近似 的 





值 。 一 一 译 者 注 
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在 本 例 中 ， 我 们 不 需要 使 用 置换 检验 也 可 以 获得 p 值 。 根 据 二 项 分 布 ， 我 们 可 以 使 用 正 态 
分 布 近似 估计 p 值 。 在 使 用 R 语言 编程 时 ， 函 数 prop.test 执行 该 操作 。 


> prop.test(x=c(200,182), n=c(23739,22588), alternative="greater") 





2-sample test for equality of proportions with continuity correction 


data: c(200, 182) out of c(23739, 22588) 
X-squared = 0.14893, df = 1, p-value = 0.3498 
alternative hypothesis: greater 
95 percent confidence interval: 
-0.001057439 1.000000000 
sample estimates: 
prop 1 prop 2 
0.008424955 0.008057376 


在 函数 的 输出 中 ， 参 数 x 表示 各 组 的 成 功 次 数 ， 参 数 n 是 试验 次 数 。 我 们 可 以 看 到 ， 由 正 
态 近 似 所 生成 的 p 值 为 0.3498， 接 近 于 使 用 置换 检验 所 得 到 的 bp 值 。 

















3.4.2 a 值 


完全 根据 研究 人 员 的 判断 力 去 确定 一 个 结果 是 否 “ 太 不 寻常 ”因而 是 偶然 的 ， 统 计 学 家 无 
疑 会 对 此 做 法 大 皱眉 头 。 在 统计 学 家 看 来 ， 正 确 的 做 法 是 提前 设 定 一 个 国 值 ， 例 如 “超过 
随机 〈 零 假设 ) 结果 5$%”"。 这 样 的 阔 值 被 称 为 gx 值 。cx 值 的 常见 取 值 是 5 和 和 1%。vx 值 的 
选取 具有 一 定 的 随意 性 一 一 该 过 程 无 法 确保 在 x% 的 情况 下 做 出 正确 的 决策 。 原 因 在 于 我 
们 要 回答 的 概率 问题 并 不 是 “随机 发 生 的 概率 是 多 少 ”， 而 是 “给 定 一 个 随机 模型 ， 出 现 
极端 结果 的 概率 是 多 少 ”。 这 样 我 们 需要 对 随机 模型 的 适当 性 进行 逆 推 ， 但 是 在 判断 过 程 
中 没有 任何 可 依据 的 概率 。 这 个 问题 一 直 困 扰 着 统计 学 家 。 
p 值 的 意义 
近年 来 ,对 p 值 的 使 用 一 直 存 在 着 相当 大 的 争议 。 一 份 心理 学 期 刊 甚至 “禁止 ”在 其 收 到 
的 论文 中 使 用 p 值 ， 理 由 是 如 果 只 根据 p 值 做 出 论文 可 以 出 版 的 决定 ， 那 么 会 导致 一 些 质 
量 不 好 的 研究 得 以 发 表 。 有 太 多 的 研究 人 员 只 是 大 概 了 解 p 值 的 真正 含义 ， 就 根据 数据 和 
各 种 可 能 的 假设 开展 检验 ， 直 到 找 出 一 种 可 以 生成 显著 p 值 的 组 合 ， 由 此 撰写 出 一 篇 适合 
发 表 的 论文 。 
真正 的 问题 在 于 ， 我 们 希望 p 值 能 包含 更 多 的 意义 ， 并 且 希 望 p 值 能 够 表达 如 下 信息 。 

结果 由 随机 所 导致 的 概率 。 
而 且 我 们 希望 该 值 越 低 越 好 ， 这 样 就 可 以 得 出 某 一 假设 得 到 证 明 的 结论 。 这 也 是 不 少 期 刊 
编辑 对 p 值 的 解释 。 但 p 值 实际 所 表示 的 是 如 下 含义 。 

给 定 一 个 随机 模型 ， 模 型 所 给 出 的 结果 与 观测 结果 同样 极端 的 概率 。 


这 两 者 之 间 的 差异 并 不 明显 ， 但 的 确 存在 。 显 著 的 p 值 并 非 如 看 上 去 那样 ， 它 并 不 能 引导 
我 们 沿 着 一 条 似乎 正确 的 “证 明 ” 道 路 走 下 去 。 如 果 我 们 理解 了 p 值 的 真正 含义 ， 那 么 就 
此 得 出 “统计 显著 ”结论 的 逻辑 基础 是 不 太 稳 固 的 。 
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2016 年 3 月 ， 美 国 统计 协会 (ASA) 在 经 过 内 部 审议 后 ， 发 表 了 一 份 关于 p 值 使 用 的 警告 

性 声明 ， 其 中 揭示 了 人 们 对 p 值 的 误解 程度 。 

美国 统计 协会 的 声明 指出 了 针对 研究 人 员 和 期 刊 编辑 的 六 项 原则 。 

(Dp 值 可 以 表示 数据 与 指定 统计 模型 间 的 不 兼容 程度 。 

(2)P 值 并 不 能 测量 所 研究 的 假设 为 真 的 概率 ， 也 不 测量 仅 通过 随机 性 生成 数据 的 概率 。 

(3) 不 应 仅 根据 p 值 是 否 超过 了 给 定 的 国 值 ， 就 得 出 一 个 科学 结论 ， 或 做 出 一 个 商业 或 政策 
决定 。 

(4) 正确 的 推断 需要 具有 全 面 的 报告 和 完全 的 透明 度 。 

(5)p 值 或 统计 显著 性 ) 并 不 测量 效果 的 规模 ， 也 不 测量 结果 的 重要 性 。 

(6)P 值 本 身 并 不 能 提供 一 种 对 模型 或 假设 的 很 好 量度 。 


3.4.3 ”第 一 类 错误 和 第 二 类 错误 

在 评估 统计 显著 性 时 ， 可 能 会 出 现下 面 两 种 类 型 的 错误 。 

。 第 一 类 错误 : 错误 地 将 仅 由 随机 性 导致 的 效果 判定 为 真 。 
。 第 二 类 错误 : 错误 地 将 实际 为 真 的 效果 判定 为 假 的 〈 即 由 随机 性 导致 的 )。 

事实 上 ,第 二 类 错误 并 不 是 一 种 错误 ， 它 是 由 于 判断 样本 的 规模 过 小 ， 而 无 法 检测 到 效 
果 。 如 果 p 值 不 足以 表明 统计 显著 性 (例如 ， 超 过 5%)， 我 们 应 称 其 为 “效果 未 验证 ”。 
增 大 样本 的 规模 ， 可 能 会 生成 较 小 的 p 值 。 

显著 性 检验 〈 即 假设 检验 ) 的 基本 功能 就 是 防止 我 们 被 随机 性 思 和 弄 。 因 此 ， 我 们 通常 可 以 
通过 构造 显著 性 检验 去 最 小 化 第 一 类 错误 。 


3.4.4 数据 科学 与 p 值 

数据 科学 家 所 做 的 工作 一 般 并 不 会 发 表 在 科学 期 刊 上 ， 因 此 对 p 值 意义 的 辩论 是 颇具 学 术 
性 的 。 如 果 数 据 科 学 家 想 知 道 一 个 看 上 去 有 意义 并 且 有 用 的 模型 结果 是 否 落 在 随机 变异 的 
范围 内 , bp 值 是 一 种 有 用 的 指标 。 作 为 一 种 在 实验 中 使 用 的 决策 工具 , p 值 不 应 被 视 为 一 
种 决定 性 的 因素 ， 而 应 被 视 为 是 另 一 种 可 以 辅助 决策 的 信息 。 例 如 ， 有 了 时 可 以 将 p 值 作为 
一 些 统计 学 或 机 器 学 习 模 型 的 中 间 输 入 值 ， 根 据 p 值 决定 一 个 特征 应 该 包含 在 模型 中 ， 还 
是 应 该 从 模型 中 排除 。 














































































































本 节 要 点 
。 显著 性 检验 可 以 用 于 确定 观测 到 的 效果 是 否 落 在 零 假设 模型 的 随机 变异 范围 内 。 
。 a 值 是 堆 假 设 随机 模型 “不 寻常 性 ”的 阔 值 。 
。 相对 于 数据 科学 而 言 ， 显 著 性 检验 在 正式 的 研究 报告 中 更 加 重要 。 但 是 近年 来 ， 即 
便 是 对 于 研究 报告 ,p 值 的 重要 性 也 一 直 在 下 降 。 
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3.4.5 “拓展 阅读 


。 Stephen Stigler 的 论文 “Fisher and the 5% Level” 对 Ronald Fisher 1925 年 出 版 的 Statistical 
Methods for Research Workers 一 书 做 了 综述 ， 其 中 重点 关注 了 5% 的 显著 性 水 平 。 
。 参见 3.2.4 节 “ 拓 展 阅 读 ” 的 内 容 。 


3.5 检 验 


显著 性 检验 具有 多 种 类 型 ， 具 体 取 决 于 数据 集 是 计数 数据 还 是 测量 数据 、 所 具有 的 样本 
数量 以 及 测量 的 具体 内 容 。! 检验 是 其 中 一 种 十 分 常用 的 检验 ， 其 命名 源 于 最 初 由 W. S. 
Gossett 提出 的 学 生 1 分 布 。t 分 布 用 于 估计 单个 样本 均值 的 分 布 情况 (参见 2.8 节 )。 





























主要 术语 
检验 统计 量 
对 我 们 所 关注 的 差异 或 效果 的 度量 。 
t 统 计量 
归 一 化 的 检验 统计 量 。 
1 分布 
一 种 用 于 比较 所 观测 到 的 ! 统 计量 的 参考 分 布 。 对 于 上 检验 ， 参 考分 布 是 从 零 假 
设 生 成 的 。 























所 有 的 显著 性 检验 都 要 求 指定 一 个 检验 统计 量 去 测量 所 关注 的 效果 ， 并 确定 观测 到 的 效果 
是 否 落 在 随机 变异 的 范围 内 。 在 重 抽样 检验 (参见 3.3.1 节 对 置换 的 介绍 ) 中 ， 数 据 的 规 
模 并 不 是 十 分 重要 。 我 们 从 数据 本 身 创建 参考 〈 零 假设 ) 分 布 ， 并 据 此 使 用 检验 统计 量 。 


统计 假设 检验 形成 于 20 世纪 20 年 代 和 30 年 代 ， 当 时 无 法 做 到 对 数据 随机 混 洗 数 千 次 ， 
以 用 于 重 抽样 检验 。 但 是 统计 学 家 发 现 ，t 检验 很 好 地 近似 了 置换 〈 随 机 混 洗 ) 分 布 。t 检 
验 基于 格 赛 特 提 出 的 1 分 布 ， 可 以 在 十 分 常见 的 两 个 样本 的 比较 ( 即 A/B 测试 ) 中 使 用 ， 
只 要 样本 中 的 数据 是 数值 型 的 。 但 是 在 使 用 1 分 布 时 ， 为 了 排除 规模 因素 的 影响 ， 必 须 对 
检验 统计 量 做 归 一 化 处 理 。 

经 典 的 统计 学 教材 在 介绍 上 检验 时 ， 会 列 出 多 个 公式 ， 其 中 包含 了 格 赛 特 提 出 的 :分 布 。 
还 会 介绍 如 何 对 数据 做 归 一 化 ， 以 便 与 标准 上 分 布 做 比较 。 但 是 在 本 书 中 ， 我 们 并 不 会 给 
这 些 公式 ， 因 为 这 些 公式 已 经 包含 在 R 和 Python 等 统计 软件 的 常用 命令 中 。 在 RR 语言 
中 ， 我 们 可 以 使 用 函数 t.test。 


> t.test(Time ~ Page, data=session times, alternative='less' ) 



























































[a 
口 


Welch Two Sample t-test 


data: Time by Page 
t = -1.0983, df = 27.693, p-value = 0.1408 
alternative hypothesis: true difference in means is less than 0 
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95 percent confidence interval: 
-Inf 19.59674 
sample estimates: 
mean in group Page A mean in group Page B 
126.3333 162.0000 


其 中 的 备 择 假设 是 页 面 A 会 话 时 间 的 均值 小 于 页 面 B 的 。 给 出 的 p 值 非常 接近 置换 检验 的 
疡 值 0.124， 参 见 3.3.2 节 。 


我 们 可 以 使 用 重 抽样 ， 构 造 出 一 个 能 够 反映 观测 数据 和 要 检验 的 假设 的 解决 方案 ， 而 无 须 
关心 数据 是 数值 型 还 是 二 元 的 ， 样 本 的 规模 是 否 平衡 ， 以 及 样本 方差 等 因素 。 如 果 使 用 统 
计 学 公式 ， 很 多 变异 性 可 以 表示 为 公式 形式 ， 但 是 这 些 公式 可 能 会 令 人 困惑 。 统 计 学 家 需 
要 依靠 公式 去 探索 问题 并 按 图 索 双 ， 但 是 数据 科学 家 并 不 需要 这 样 做 。 通 常 ， 数 据 科学 家 
并 不 需要 钻研 假设 检验 和 置信 区 间 的 细 枝 末节 ， 这 些 是 研究 人 员 在 准备 论文 以 便 展 示 时 需 
要 搞 清 楚 的 。 




































































本 节 要 点 
。 在 计算 机 出 现 之 前 ， 重 抽样 检验 并 不 实用 ， 统 计 人 员 使 用 标准 参考 分 布 。 
。 检验 统计 量 应 该 做 归 一 化 ， 这 样 才 能 与 参考 分 布 做 比较 。 
。 统计 量 是 一 种 广 为 使 用 的 归 一 化 统计 量 。 














拓展 阅读 

。 任何 一 本 统计 学 入 门 教材 都 会 介绍 t 统计 量 及 其 用 途 。 在 此 我 们 推荐 两 本 教材 。 一 本 是 
David Freedman 、 Robert Pisani 和 Roger Purves 合 著 的 经 典 统计 学 教材 Statistics (第 4 版 )， 
另 一 本 是 David S. Moore 撰写 的 The Basic Practice of Statistics。 

。 关于 1 检验 和 重 抽样 过 程 的 并 行 处 理 ， 推 荐 阅读 Peter Bruce 撰写 的 Introductory Statistics 
and Analytics: 4 Resampling Perspective 一 书 ， 或 者 Robin Lock 及 其 他 四 位 洛克 家 族 成 员 
合 著 的 Statistics: Unlocking the Power of Data 一 书 。 


3.6 多重 检验 


在 2.2 节 中 我 们 曾 提 及 ， 统 计 学 中 有 一 句 话 :“ 如 果 拷 问 数据 的 时 间 足 够 长 ， 那 么 它 迟 早 会 
招供 。 这 意味 着 ， 如 果 我 们 能 从 足够 多 的 视角 去 观察 数据 ， 并 提出 足够 多 的 问题 ， 几 乎 
总 是 可 以 发 现 具有 统计 显著 性 的 效果 。 












































主要 术语 


第 一 类 错误 

错误 地 得 出 一 个 效果 是 统计 显著 的 结论 。 
错误 发 现 率 

在 多 重 检验 中 ， 犯 第 一 类 错误 的 比率 。 
p 值 校正 

用 于 在 同一 数据 上 做 多 重 检验 。 
过 拟 合 


拟 合 了 噪声 。 











例如 ， 给 定 随机 生成 的 20 个 预测 变量 和 一 个 结果 变量 ， 如 果 进 行 一 组 20 次 a = 0.05 水 平 
的 显著 性 检验 ， 那 么 很 可 能 至 少 有 一 个 预测 因子 会 〈 错 误 地 ) 显示 为 统计 显著 的 。 如 上 所 
述 ， 这 被 称 为 第 一 类 错误 。 在 计算 第 一 类 错误 的 概率 时 ， 可 以 首先 计算 在 0.05 水 平 上 所 
有 预测 因子 将 被 正确 检验 为 非 统 计 显著 的 概率 。 在 本 例 中 ， 一 个 预测 因子 被 正确 地 检验 为 
非 统 计 显 著 的 概率 是 0.95， 那 么 全 部 20 个 预测 因子 被 正确 地 检验 为 非 统 计 显 著 的 概率 就 
是 0.95 x0.95 x0.95x…， 即 0.95”= 0.36。? 至 少 一 个 预测 因子 将 被 错误 地 验证 为 显著 的 概 
率 ， 就 是 1 减 去 所 有 预测 因子 都 是 非 统计 显赫 的 概率 等 于 0.64。 

上 面 介绍 的 问题 涉及 数据 挖掘 中 的 过 拟 合 问题 ， 即 “模型 拟 合 了 噪声 ”。 如 果 我 们 添加 的 
变量 越 多 ， 或 者 运行 的 模型 越 多 ， 那 么 偶然 出 现 “ 统 计 显 著 性 ”的 概率 就 会 越 大 。 


在 有 监督 学 习 任 务 中 ， 会 给 出 一 个 验证 集 ， 让 模型 评估 从 未 见 过 的 数据 ， 从 而 降低 了 风 
险 。 在 没有 已 标记 验证 集 的 统计 学 习 和 机 器 学 习 任务 中 ， 仍 然 存 在 由 统计 噪声 得 出 结论 的 
风险 。 


统计 学 提供 了 一 些 过 程 ， 可 以 在 一 些 特定 的 场景 下 解决 这 个 问题 。 例 如 ， 在 比较 多 个 处 
理 组 的 结果 时 ， 我 们 可 以 提出 多 个 问题 。 例 如 ， 对 于 处 理 A、B 和 C， 我 们 可 以 提出 如 
下 问题 。 


。 A 是 否 不 同 于 B ? 
。 B 是 否 不 同 于 C? 
。 人 A 是否 不 同 于 C? 


另 一 个 例子 是 在 临床 试验 中 ， 我 们 可 能 想 要 在 多 个 阶段 查看 某 种 治疗 的 效果 。 在 每 个 阶 
段 ， 我 们 都 可 以 提出 多 个 问题 ， 每 个 问题 都 会 增加 被 随机 性 愚弄 的 可 能 性 。 为 了 解决 这 一 
问题 ， 统 计 学 给 出 了 一 种 校正 (adjustment) 过 程 。 相 比 于 单一 假设 检验 所 设置 的 统计 显著 
性 界限 ， 校 正 过 程 设置 了 更 严格 的 统计 显著 性 界限 。 校 正 过 程 通常 涉及 根据 校正 校正 检验 
的 次 数 “ 划 分 wx 值 ”。 这 导致 了 对 每 次 检验 使 用 较 小 的 x 值 ， 即 对 于 统计 显著 性 更 严格 的 
界限 。Bonferroni 校正 就 是 这 样 的 一 种 过 程 ， 它 仅 是 将 a 值 除 以 观测 次 数 n。 






































































































































注 2: 乘法 规则 指出 ，n 个 独立 事件 一 并 发 生 的 概率 ， 是 每 个 事件 发 生 概率 的 乘积 。 例 如 ， 如 果 你 我 两 人 每 
人 抛 一 次 硬币 ， 那 么 我 们 的 硬币 都 正面 向 上 的 概率 是 0.5 x 0.5 = 0.25。 
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然而 ， 多 重 比较 问题 超出 了 上 面 列 举 的 这 些 高 度 结构 化 的 案例 ， 它 与 反复 “数据 玻 座 ” 
(dredging) 现象 有 关 。 这 一 现象 众生 了 “拷问 数据 ”的 谚语 。 也 就 是 说 ， 给 定 一 组 足够 复 
杂 的 数据 ， 如 果 你 没有 从 中 找到 感 兴趣 的 内 容 ， 那 么 说 明 你 根本 就 没有 尽力 去 查看 数据 。 
现在 ， 可 供 使 用 的 数据 达到 了 前 所 未 有 的 规模 ， 在 2002 年 至 2010 年 期 间 ， 发 表 的 论文 数 
也 近乎 翻 了 一 番 。 这 为 在 数据 中 发 现 有 意义 的 内 容 提 供 了 很 多 偶然 性 ， 其 中 包括 下 列 多 重 
性 问题 。 
。 如 何 两 两 成 对 地 查看 多 个 组 间 的 差异 情况 。 
。 对 于 以 各 种 方式 构建 的 数据 子 集 ， 如 何 查看 结果 。 例 如 , “我们 并 未 在 总 体 中 发 现 显著 
的 处 理 效果 ， 但 在 30 岁 以 下 的 未 婚 女性 这 一 子 集中 ， 发 现 了 显著 的 处 理 效 果 ”。 
。 如 何尝 试 使 用 多 种 统计 模型 。 
。 如 何在 模型 中 加 入 多 个 变量 。 
。 如 何 询问 多 个 不 同 的 问题 ， 即 不 同 的 可 能 结果 。 
错误 发 现 率 
错误 发 现 率 这 一 术语 ， 最 初 用 于 描述 一 组 给 定 的 假设 检验 错误 地 识别 显著 效 
果 的 比率 。 随 着 基因 组 研究 的 发 展 ， 错 误 发 现 率 变 得 愈 发 有 用 。 在 基因 测序 
项 目 中 ， 会 进行 大 量 的 统计 检验 。 在 这 些 情况 中 ， 错 误 发 现 率 可 以 用 在 检验 
协议 中 ， 而 单个 错误 “发 现 ”是 指 假设 检验 的 结果 (例如 ， 在 两 个 样本 之 
间 )。 研 究 人 员 也 寻求 通过 设置 检验 过 程 的 参数 去 控制 一 定 水 平 的 错误 发 现 
率 。 错 误 发 现 率 也 适用 于 数据 挖掘 的 分 类 场景 中 ， 其 中 的 错误 发 现 是 指 对 单 
个 记录 的 错误 标记 ， 特 别 是 将 0 误 标 记 为 1 (参见 5.4.2 节 )。 




































































出 于 多 种 原因 ， 尤 其 包括 “多 重 性 ”这 一 常见 问题 ， 更 多 的 研究 并 不 一 定 意味 着 更 好 的 研 
究 。2011 年 ， 拜 耳 制药 公司 试图 对 67 项 科学 研究 进行 复 现时 ， 发 现 只 能 完全 复 现 其 中 的 
14 项 。 有 近 三 分 之 二 的 研究 根本 无 法 复 现 。 

在 任何 情况 下 ， 针 对 高 度 定义 和 结构 化 的 统计 检验 的 校正 过 程 过 于 特定 ， 也 不 够 灵活 ， 因 
此 通常 并 不 适用 于 数据 科学 家 。 就 多 重 性 问题 而 言 ， 数 据 科学 家 的 底线 做 法 如 下 。 


。 对 于 预测 建 模 ， 可 以 通过 交叉 验证 (参见 4.2.3 节 ) 和 使 用 验证 集 降 低 得 到 虚假 模型 的 
风险 。 虚 假 模型 的 效能 在 很 大 程度 上 是 随机 性 的 结果 。 
。 对 于 其 他 过 程 ， 如 果 没 有 已 标记 的 验证 集 可 以 验证 模型 ， 那 么 必须 依赖 如 下 原则 。 
- 应 意识 到 对 数据 的 查询 和 操作 越 多 ， 随 机 性 可 能 发 挥 的 作用 就 更 大 。 
一 使 用 重 抽样 和 模拟 等 启发 式 方法 ， 为 随机 性 提供 基准 测试 。 这 样 就 可 以 将 观察 到 的 
结果 与 基准 测试 进行 比较 。 























本 节 要 点 
。 在 研究 工作 或 数据 挖 据 项 目 中 ， 多 重 性 (多重 比 较 、 多 变量 、 多 模型 等 ) 增加 了 仅 
根据 随机 对 某 个 结果 得 出 显著 性 结论 的 风险 。 
。 对 于 涉及 多 重 统计 比较 的 情况 〈 即 显著 性 的 多 重 检验 ) ， 可 以 使 用 统计 校正 过 程 。 
。 在 数据 挖 气 中 使 用 结果 变量 带 标记 的 验证 样本 ， 有 助 于 避免 得 到 误导 性 的 结果 。 
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拓展 阅读 

。 David Lane 的 在 线 统计 教程 中 简要 介绍 了 如 何 使 用 Dunnett 检验 校正 多 重 比 较 。 

。 Megan Goldman 对 Bonferroni 校正 做 了 更 详细 的 解释 ， 参 见 http://www.stat.berkeley. 
edu/~mgoldman/Section0402.pdf。 

。 要 深入 了 解 如 何 使 用 更 灵活 的 统计 过 程 调 整 p 值 ， 推 荐 阅读 Peter Westfall 和 Stanley 
Young 合 著 的 Resampling-Based Multiple Testing 一 书 。 

。 关于 数据 分 区 和 在 预测 建 模 中 使 用 验证 样本 的 讨论 ， 请 参阅 Galit Shmueli、Peter Bruce 
和 Nitin Patel 合 著 的 Data Mining for Business Analytics 一 书 的 第 2 章 。 


3.7 自由 度 


在 许多 统计 检验 的 文档 和 设置 中 ， 我 们 都 能 看 到 自由 度 这 一 概念 。 自 由 度 应 用 于 从 样本 数 
据 计算 得 到 的 统计 量 ， 指 可 以 自由 变化 的 值 的 个 数 。 例 如 ， 对 于 一 个 具有 10 个 值 的 样本 ， 
如 果 知 道 了 样本 的 均值 以 及 样本 中 的 9 个 值 ， 那 么 第 10 个 值 也 是 已 知 的 ， 即 只 有 9 个 值 
是 自由 变化 的 。 
















































































主要 术语 
n， 即 样本 规模 
在 数据 中 ， 观 测 (也 称 为 行 或 记录 ) 的 数量 。 


df. 
degrees of freedom (自由 度 ) 的 简写 。 











自由 度 是 很 多 统计 检验 的 一 个 输入 。 例 如 ， 在 计算 方差 和 标准 偏差 时 ,分母 n-1 就 是 自由 
度 。 为 什么 要 使 用 自由 度 ? 在 使 用 一 个 样本 估计 总 体 的 方差 时 ， 如 果 在 分 母 上 使 用 了 n， 
那么 估计 的 偏差 就 会 偏 小 。 如 果 在 分 母 上 使 用 了 n-1， 这 时 估计 就 是 无 偏 的 。 


! 检验、 严 检 验 等 各 种 对 假设 的 标准 检验 ， 占 据 了 传统 统计 学 课程 或 教材 的 大 部 分 内 容 。 在 
传统 的 统计 学 公式 中 ， 如 果 使 用 了 经 过 归 一 化 的 样本 统计 量 ， 自 由 度 就 是 归 一 化 计算 的 一 
部 分 ， 它 确保 了 归 一 化 的 数据 可 以 匹配 适当 的 参考 分 布 ， 如 1 分 布 、 亚 分 布 等 
自由 度 对 数据 科学 是 否 也 同样 重要 ? 答案 是 并 非 如 此 ， 至 少 就 显著 性 检验 而 言 并 非 如 此 。 
一 方面 ， 在 数据 科学 中 ， 我 们 只 是 保守 地 使 用 了 正式 的 统计 检验 。 另 一 方面 ， 数 据 的 规模 
通常 会 非常 大 ， 这 使 得 对 于 数据 科学 家 来 说 ,分 母 是 还 是 -1 几乎 没有 区 别 。 

但 是 在 数据 科学 中 ， 有 一 种 场景 是 与 自由 度 相关 的 ， 那 就 是 在 回归 (包括 逻辑 回归 ) 中 使 
用 因子 化 变量 。 如 果 在 回归 算法 中 使 用 了 完全 宛 余 的 预测 变量 ， 那 么 算法 就 会 产生 阻塞 。 
该 问题 经 常 出 现在 将 分 类 变量 因子 化 为 二 元 标识 (虚拟 变量 ) 的 情况 下 。 以 星期 为 例 ， 虽 
然 一 个 星期 有 7 天 ， 但 具体 是 星期 几 ， 其 自由 度 为 6。 一旦 我 们 知道 某 一 天 并 不 是 从 星期 
一 到 星期 六 中 的 任意 一 天 ， 那 么 它 一 定 是 星期 天 。 因 此 ， 如 果 在 回归 中 包括 了 星期 一 至 星 
期 六 ， 就 意味 着 也 加 入 了 星期 天 ， 而 由 于 多 重 共 线性 (multicollinearity) 问题 ， 这 将 导致 
回归 失败 。 
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本 节 要 点 
。 自由 度 是 归 一 化 检验 统计 量 计算 的 一 部 分 。 它 使 得 归 一 化 后 的 结果 可 以 与 参考 分 布 
(例如 上 分布、 已 分 布 等 ) 进行 对 比 。 
。 在 回归 中 ， 为 避免 出 现 多 重 共 线性 问题 ， 在 将 分 类 变量 因子 化 为 -1 个 标识 或 虚拟 
变量 时 ， 应 考虑 其 中 隐 含 的 自由 度 概念 。 











拓展 阅读 
几 个 介绍 自由 度 的 网 络 教程 。 


3.8 方差 分 析 


如 果 我 们 不 是 要 对 两 个 组 做 A/B 测试 ， 而 是 要 对 比 多 个 包含 数值 型 数据 的 组 (比如 A、B、 
C、D)， 这 时 可 以 使 用 方差 分 析 (ANOVA，analysis of variance) 。 方 差分 析 是 一 种 检验 多 
个 组 之 间 统 计 显著 性 差异 的 统计 学 方法 。 











主要 术语 
两 两 对 比 
对 于 有 多 个 组 的 情况 ， 在 两 个 组 之 间 做 假设 检验 (比如 对 均值 ) 。 
多 项 检验 (omnibus test) 
一 种 可 以 测定 多 个 组 均值 间 方 差 的 单一 假设 检验 。 
方差 分 解 
从 整体 统计 量 中 (例如 ， 从 整体 均值 、 处 理 均值 以 及 残 差 中 )， 分 离 出 单个 值 的 贡献 
情况 。 
请 统计 量 
一 种 归 一 化 统计 量 ， 用 于 衡量 多 个 组 均值 间 的 差异 是 否 会 超过 随机 模型 的 预期 。 
SS 
sum of square 〈 平 方 和 ) 的 简写 ， 指 与 某 一 均值 的 偏差 。 

















表 3-3 显示 了 4 个 Web 页 面 的 黏 性 ， 体 现 为 在 页 面 上 停留 的 秒 数 。 这 4 个 页 面 是 随机 切 
换 的 ， 因 此 每 位 Web 访问 者 都 是 随机 地 访问 其 中 一 个 页 面 。 每 个 页 面 总 共有 5 位 访问 者 ， 
表 3-3 中 的 每 一 列 都 是 一 组 独立 的 数据 。 第 一 个 页 面 的 首位 访问 者 与 第 二 个 页 面 的 首位 访 
问 者 间 并 无 关联 。 注 意 ， 在 此 类 网 络 测 试 中 ， 是 无 法 完全 实现 经 典 的 随机 抽样 设计 的 ， 即 
无 法 做 到 每 位 访问 者 都 是 从 庞大 的 总 体 中 随机 选择 的 。 一 旦 有 访问 者 访问 了 一 个 页 面 ， 我 
们 就 记录 该 访问 者 。 访 问 者 之 间 可 能 存在 一 些 系统 性 差异 ， 具 体 取决 于 一 天 中 的 到 访 时 
间 、 一 周 中 的 到 访 日 、 一 年 中 的 到 访 季 市 、 访 问 者 的 网 络 状 况 、 访 问 者 使 用 的 设备 等 
素 。 在 审核 实验 结果 时 ， 这 些 因素 都 应 被 视 为 潜在 的 偏差 。 
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表 3-3: 4 个 Web 页 面 的 儿 性 〈 单 位 ; 秒 ) 





页 面 1 页 面 2 页 面 3 页 面 4 
164 178 175 155 
172 191 193 166 
177 182 171 164 
156 185 163 170 
195 177 176 168 
平均 值 172 185 176 162 
总 平均 值 173.75 


























现在 ， 我 们 面 对 着 一 个 难题 (如 图 3-6 所 示 )。 如 果 我 们 只 对 两 个 组 做 比较 ， 那 么 事情 非常 
简单 ， 只 需 查 看 各 组 均值 间 的 差异 即 可 。 对 于 4 组 均值 ， 存 在 如 下 6 种 可 能 的 组 间 比 较 。 














页 面 1 与 页 面 2 相 比 
页 面 1 与 页 面 3 相 比 
。 页 面 1 与 页 面 4 相 比 
页 
页 
页 




















看 2 与 页 面 3 相 比 
下 2 与 页 面 4 相 比 
下 3 与 页 面 4 相 比 
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3-6: 4 组 的 箱 线 图 显示 了 组 间 的 显著 差异 
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所 做 的 两 两 比较 越 多 ,我 们 就 越 有 可 能 被 随机 性 轧 弄 (参见 3.6 节 )。 我 们 无 须 比 较 各 个 
页 面 之 间 所 有 可 能 的 对 比方 式 ， 而 是 可 以 通过 整体 使 用 单一 的 多 项 检验 来 解决 这 一 问题 : 
“所 有 的 页 面 是 否 具有 相同 的 黏 性 ? 它们 之 间 的 差异 是 不 是 由 于 在 4 个 页 面 间 随机 地 分 配 
了 同一 组 会 话 时 间 所 导致 的 ?“ 


这 里 我 们 使 用 的 检验 过 程 就 是 方差 分 析 。 下 面 列 出 对 Web 页 面 黏 性 做 A/B/C/D 测试 的 重 
抽样 过 程 ， 我 们 可 以 从 中 看 到 方差 分 析 的 基础 所 在 。 


(1) 将 所 有 数据 合并 成 一 个 箱子 。 

(2) 混 洗 ， 并 从 箱子 中 抽出 4 组 样本 ， 每 组 样本 有 4 个 值 。 
(3) 记录 每 组 的 均值 。 
(4) 记录 4 个 均值 间 的 方差 。 

(5) 重复 第 2 步 到 第 4 步 多 次 (例如 1000 次 )。 


这 样 ， 重 抽样 方差 超过 观测 方差 的 比率 ， 就 是 bp 值 。 


这 里 给 出 的 置换 检验 比 3.3.1 市 介绍 的 置换 检验 略微 复杂 。 幸 运 的 是 ， 我 们 可 以 直接 使 用 
lmPerm 软件 包 提 供 的 aovp 函数 实现 置换 检验 的 计算 。 


> Library(LmPerm) 
> summary(aovp(Time ~ Page, data=four_sessions)) 
[1] "Settings: unique SS " 
Component 1 : 

Df R Sum Sq R Mean Sq Iter Pr(Prob) 
Page 3 831.4 277.13 3104 0.09278 . 
Residuals 16 1618.4 101.15 










































































Signif. codes: © '***! 0.001 '**' 0.01 '*' 0.05 '.' 0.1' "1 


输出 结果 中 ，Pr(Prob) 列 显 示 的 是 p 值 ， 此 例 中 为 0.09278。Iter 列 显示 了 置换 检验 的 返 
代 次 数 ?。 其 他 列 分 别 对 应 于 传统 ANOVA 表 中 的 相应 列 ， 我 们 将 在 本 节 后 面 介绍 。 























3.8.1 F 广 统计 量 

在 比较 两 组 的 均值 时 ， 我 们 可 以 使 用 1 检验 替代 置换 检验 。 类 似 地 ， 对 于 方差 分 析 而 言 ， 
存在 一 种 基于 广 统 计量 的 统计 检验 。 五 统计 量 基 于 各 组 均值 间 的 方差 ( 即 处 理 效 果 ) 与 由 
于 残 差 所 导致 的 方差 间 的 比率 。 比 率 越 高 ， 结 果 就 越 统计 显著 。 如 果 数 据 遵循 正 态 分 布 ， 
那么 根据 统计 学 理论 ， 统 计量 也 应 符合 某 种 分 布 。 由 此 , p 值 也 是 可 以 计算 的 。 


在 R 语 言 中 ， 可 以 使 用 aov 函数 计算 ANOVA 表 。 


> summary(aov(Time ~ Page, data=four_sessions)) 

Df Sum Sq Mean Sq F value Pr(>F) 
Page 3 831.4 277.1 2.74 0.0776 . 
Residuals 16 1618.4 101.2 


























Signif. codes: © '***! 0.001 '**' 0.01 '*' 0.05 '.' 0.1' "1 





注 3: 实际 运行 avop 函数 时 ， 给 出 的 Iter 和 Pr(Prob) 会 与 本 例 中 的 输出 值 存在 一 定 的 差异 。 一 一 译 者 注 
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在 输出 结果 中 ，pDf 表示 自由 度 ，Sum sq 表示 平方 和 ，Mean Sq 是 “ 均 方 偏 差 ”(mean- 
squared deviations 的 简写 ) ，F Value 是 统计 量 。 总 平均 的 平方 和 等 于 总 平均 (与 0 的 
差 值 ) 平方 后 再 乘 以 观测 数 20。 根 据 定义 ， 总 平均 的 自由 度 为 1， 处 理 均 值 的 自由 度 为 
3 (因为 一 旦 设 定 了 三 个 处 理 值 ， 那 么 总 平均 也 就 设 定 了 ， 这 样 另 一 个 处 理 的 均值 就 不 
会 改变 ) 。 处 理 均值 的 平方 和 是 处 理 均 值 与 总 平均 间 差 值 的 平方 和 。 残 差 的 自由 度 为 20 
( 即 所 有 的 观测 值 都 可 以 变化 )，5S 是 单个 观测 值 与 处 理 均值 间 差 值 的 平方 和 。 均 方 根 
(MS) 是 平方 和 除 以 自由 度 。F 统计 量 是 处 理 的 平方 和 除 以 误差 的 平方 和 。F 值 仅 取 决 于 
五 统计 量 ， 并 且 参 考 标准 的 五 分 布 ， 以 确定 处 理 均 值 间 的 差异 是 否 会 大 于 随机 变异 的 预 
期 差异 。 










































































方差 分 解 

数据 集 的 观测 值 可 以 看 成 多 个 成 分 的 总 和 。 对 于 一 个 数据 集中 的 任意 一 个 观 

测 值 ， 可 以 分 解 为 总 平均 、 处 理 效 果 和 残 差 。 我 们 将 这 一 过 程 称 为 方差 分 解 。 

(1) 从 总 平均 开始 (对 于 Web 页 面 黏 性 数据 ， 总 平均 为 173.75)。 

(2) 加 入 处 理 效 果 ， 它 可 能 为 负 值 (对 于 Web 页 面 黏 性 数据 ， 独 立 变量 为 
Web 页 面 )。 

(3) 加 入 残 差 。 残 差 也 可 能 为 负 值 。 

这 样 ， 对 A/B/C/D 测试 表 ( 表 3-3) 中 左上 角 值 ( 即 164) 的 方差 分 解 如 下 。 

(1) 从 总 平均 开始 : 173.75。 

(2) 添加 处 理 (组 ) 效果 : 组 均值 172-173.75 = -1.75。 

(3) 添加 残 差 : 164-172 = -8 。 

(4) 得 到 结果 : 164。 


3.8.2 ”双向 方差 分 析 


上 一 节 介 绍 的 A/B/C/D 测试 是 一 种 “ 单 向 ”方差 分 析 ， 其 中 只 有 一 个 变化 因子 (组 )。 我 
们 可 以 加 入 第 二 个 因子 ， 例 如 “周末 与 工作 日 "， 并 在 每 对 组 合 上 收集 数据 (周末 A 组 、 
工作 日 A 组 、 周 末了 B 组 等 )。 这 就 构成 一 个 双向 方差 分 析 。 我 们 可 以 使 用 类 似 于 单 向 方差 
分 析 的 实现 方法 ， 通 过 识别 “交互 效应 ”实现 双向 方差 分 析 。 在 确定 了 总 平均 效果 和 处 理 
效果 后 ， 我 们 将 各 组 中 的 周末 和 工作 日 观测 结果 分 成 子 集 ， 并 找 出 各 个 子 集 的 均值 与 处 理 
均值 乙 间 的 差异 。 


我 们 可 以 看 到 ， 方 差分 析 (包括 双向 方差 分 析 ) 是 迈 向 完全 统计 模型 (例如 回归 和 逻辑 
归 ) 的 第 一 步 。 完 全 统计 模型 可 以 对 多 个 因子 及 因子 的 影响 情况 建 模 (参见 第 4 章 )。 
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本 节 要 点 
。 方差 分 析 是 一 种 用 于 分 析 多 组 处 理 结果 的 统计 过 程 。 
。 方差 分 析 是 对 A/B 测试 中 类 似 过 程 的 一 种 扩展 ， 用 于 评估 各 组 之 间 的 整体 方差 是 否 
落 在 随机 变异 范围 内 。 
。 方差 分 析 的 一 个 有 用 结果 是 识别 出 与 组 处 理 、 交 互 效 果 和 误差 相关 的 方差 成 分 。 
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Sy = 
3.8.3 ”拓展 阅读 
。 在 Peter Bruce 的 Introductory Statistics and Analytics: A Resampling Perspective 一 书 中 ， 


专门 有 一 章 介绍 了 方差 分 析 。 
。 George Cobb 撰写 的 Introduction to Desien and Analysis of Experiments 一 书 全 面 介绍 了 方 


差分 析 ， 适 合 阅 读 。 


3.9 卡 方 检验 

通常 在 Web 测试 中 ， 需 要 一 次 检验 多 个 处 理 ， 这 超出 了 A/B 测试 的 范围 。 卡 方 检验 适用 
于 计数 数据 ， 它 可 以 检验 数据 与 预期 分 布 的 拟 合 程度 。 在 统计 实践 中 ， 卡 方 统计 量 的 最 常 
见 用 法 是 与 rxc 列 联 表 一 起 使 用 ， 以 评估 对 变量 间 独 立 性 的 零 假 设 是 否 合 理 。 
卡 方 检验 最 初 是 由 卡尔 .皮尔 逊 (Karl Pearson) 在 1900 年 提出 的 。“ 卡 方 ”(Chi) 一 词 来 
自 皮尔 还 在 文章 中 使 用 的 希腊 字母 &。 
































主要 术语 
卡 方 统计 量 
观测 数据 偏离 预期 程度 的 量度 。 
期 望 值 /期望 


在 某 种 假设 (通常 是 零 假设 ) 下 ， 我 们 期 望 数据 能 给 出 的 结果 。 


df. 
自由 度 。 














rXxc 表 示 “ 行 数 x 列 数 "。 例 如 ，2 x 3 的 表格 具有 两 行 三 列 。 


3.9.1 卡 方 检验 : 一 种 重 抽样 方法 
假设 我 们 要 对 1000 名 访问 者 测试 三 种 不 同 的 标题 A、B 和 C， 测 试 结果 如 表 3-4 所 示 。 
表 3-4: 3 种 不 同 标题 的 Web 检 验 结果 

标题 A 标题 B 标题 C 




















hy 
ml 
HT 

一 

小 
Oo 
一 
MD 





未 点 击 986 992 988 


从 表 3-4 中 可 以 看 到 ， 各 标题 之 间 存 在 明显 的 差异 。 虽 然 实际 的 点 击 量 很 少 ， 但 是 标题 A 
的 点 击 量 几乎 是 标题 B 的 两 倍 。 重 抽样 过 程 可 以 检验 观测 到 的 点 击 量 是 否 与 随机 性 可 导致 
的 程度 有 所 差异 。 对 于 Web 标题 检验 ， 我 们 需要 知道 点 击 量 的 预期 分 布 。 在 本 例 中 ， 我 们 
使 用 了 零 假 设 ， 即 所 有 3 种 标题 具有 相同 的 点 击 率 ， 这 时 总 体 点 击 率 为 34/3000。 基 于 该 
假设 ， 我 们 生成 了 如 表 3-5 所 示 的 列 联 表 。 
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表 3-5: 3 个 标题 在 点 击 率 相同 ( 零 假 设 ) 情况 下 的 期 望 值 





标题 A 标题 B 标题 C 
点 击 11.33 11.33 11.33 
未 点 击 988.67 988.67 988.67 














我 们 用 “Observed” 表 示 实 际 观测 到 的 情况 , “Expected” 表 示 采 用 假设 情况 下 的 期 望 值 
皮尔 逊 残 差 (Pearson residual) RR, 的 定义 为 : 


_ Observed — Expected 


* VExpected 


皮尔 逊 残 差 妨 测量 了 实际 观测 值 与 期 望 值 之 间 的 差异 程度 ， 如 表 3-6 所 示 。 
表 3-6: 皮尔 逊 残 差 





























标题 A 标题 B 标题 C 
点 击 0.792 -0.990 0.198 
未 点 击 -0.085 0.106 -0.021 


卡 方 统计 量 (chi-squared statistic) 是 皮尔 逊 残 差 的 平方 和 ， 计 算 公式 为 ， 
=> 
其 中 , r 和 < 分 别 是 列 联 表 的 行 数 和 列 数 。 对 于 本 例 ， 卡 方 统 计量 的 值 为 1.666。 那 么 它 是 
否 超出 了 随机 模型 中 可 能 合理 发 生 的 情况 呢 ? 
我 们 可 以 使 用 下 面 给 出 的 重 抽样 算法 进行 检验 。 
(1) 构造 一 个 矩形 ， 其 中 包含 34 个 1 (点 击 数 ) 和 2966 个 0 (未 点 击 数 )。 
(2) 对 和 矩阵 中 数据 做 随机 混 洗 ， 然 后 从 中 独立 地 抽取 出 三 组 样本 ， 每 组 样本 的 规模 为 1000， 
并 计算 每 组 样本 中 1 的 个 数 (点 击 数 )。 
(G3) 找 出 各 组 中 混 洗 计数 和 预期 计数 间 的 平方 差 ， 并 将 它们 相 加 。 
(4) 重复 第 2 步 和 第 3 步 多 次 (例如 1000 次 )。 
(5) 计算 重 抽 样 偏差 的 平方 和 超过 观测 值 的 频数 ， 这 就 是 p 值 。 
使 用 RR 语言 的 chisq.test 函数 ， 就 可 以 计算 重 抽样 的 卡 方 统 计量 。 对 于 本 例 的 Web 点 击 
数据 ， 卡 方 检验 计算 为 : 


> chisq.test(clicks, simulate.p.value=TRUE) 












































Pearson's Chi-squared test with simulated p-value (based on 2000 replicates) 


data: clicks 
X-squared = 1.6659, df = NA, p-value = 0.4853 


上 述 检验 表明 ， 结 果 完 全 是 由 随机 性 获得 的 “。 

















注 4: 正如 文中 所 说 ， 此 处 p 值 的 计算 具有 一 定 的 随机 性 ， 在 实际 运行 示例 程序 时 ， 得 出 的 p 值 可 能 是 一 个 
与 本 例 输出 近似 的 值 。 一 一 译 者 注 
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3.9.2 卡 方 检验 : 统计 理论 

统计 学 的 渐 近 理论 指出 ， 卡 方 统 计量 的 分 布 可 以 由 卡 方 分 布 近 似 得 到 。 适 合 的 标准 卡 方 分 
布 取 决 于 自由 度 (参见 3.7 节 )。 自 由 度 与 列 联 表 的 行 数 r 和 列 数 s 有 关 。 

自由 度 = (一 D) x (c-1) 

卡 方 分 布 通常 是 偏 斜 的 ， 右 侧 具 有 长 尾 。 图 3-7 显示 了 自由 度 分 别 为 1、2、5 和 10 时 的 卡 
方 分 布 情况 。 观 测 统计 量 在 卡 方 分 布 中 的 位 置 越 远 , p 值 越 小 。 




















0.3 了 本 




















图 3-7; 不 同 自由 度 下 的 卡 方 分 布 (y 轴 为 概率 ，x 轴 为 卡 方 统计 量 的 值 ) 
R 语言 的 chisq.test 函数 在 计算 bp 值 时 ， 使 用 了 卡 方 分 布 作为 参考 分 布 。 


> chisq.test(clicks, simulate.p.value=FALSE) 





Pearson's Chi-squared test 


data: clicks 
X-squared = 1.6659, df = 2, p-value = 0.4348 


此 例 中 ， 卡 方 计算 所 给 出 的 bp 值 略 小 于 重 抽样 的 bp 值 。 这 是 因为 卡 方 分 布 只 是 对 统计 量 实 
际 分 布 的 一 种 近似 。 


3.9.3 ” 费 舍 尔 精确 检验 

卡 方 分 布 可 以 很 好 地 近似 上 面 所 介绍 的 混 洗 重 抽样 检验 过 程 ， 但 是 它 并 不 适用 于 计数 非常 
低 〈 达 到 个 位 数 ， 特 别 是 少 于 5 个 ) 的 情况 。 在 这 种 情况 下 ， 重 抽样 过 程 本 身 就 能 给 出 更 
精确 的 p 值 。 事 实 上 ， 大 多 数 统计 软件 都 可 以 实际 列 出 所 有 可 能 出 现 的 重 排 (置换 ) 情 
况 及 其 频数 ， 进 而 确定 观测 结果 的 极端 程度 。 这 一 操作 被 称 为 费 舍 尔 精 确 检 验 (Fisher’s 
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exact test)， 命 名 源 自 于 伟大 的 统计 学 家 费 舍 尔 (R. A. Fisher)。 用 及 语言 实现 基本 的 费 铭 
尔 精 确 检 验 非 常 简单 。 


> fisher.test(clicks) 








Fisher's Exact Test for Count Data 


data: clicks 
p-value = 0.4824 
alternative hypothesis: two.sided 


给 出 的 bp 值 为 0.4824， 非 常 接近 使 用 重 抽 样 方法 获得 的 p 值 0.4853。 


在 一 些 情况 下 ， 虽 然 一 些 计数 的 值 很 低 ， 但 是 其 他 的 值 相当 高 ， 例 如 转换 率 的 分 母 值 。 由 
于 难以 计算 所 有 可 能 的 置换 情况 ， 这 时 需要 做 混 洗 置换 检验 ， 而 非 完全 的 精确 检验 。 在 上 
面 介 绍 的 fisher.test 函数 中 ， 指 定 参数 simulate.p.value=TRUE (或 FALSE) 就 可 以 控制 
是 否 要 使 用 这 种 近似 ,设置 参 数 B 的 值 可 以 控制 迭代 次 数 ， 而 参数 workspace 限定 了 计算 
精确 结果 所 使 用 的 计算 资源 。 









































检测 科学 研究 中 的 欺诈 行为 
一 个 有 意义 的 例子 来 自 美国 塔 夫 英 大 学 的 研究 员 Thereza Imanishi Kari。1991 年 ， 她 被 
指控 在 研究 中 捏造 数据 ， 美 国 国会 议员 John Dingell 也 牵扯 其 中 。 案 件 最 终 导 致 她 的 
同事 David Baltimore 缮 去 了 洛克 菲 勒 大 学 校长 的 职务 。 


虽然 经 过 漫长 的 诉讼 后 ,， 伊 马 西 * 卡 里 最 终 获得 了 挫 免 。 但 是 在 本 案 中 ,一 个 证 据 就 
来 自 统 计 学 。 该 证 据 是 根据 实验 数据 中 各 个 数字 的 预期 分 布 得 出 的 。 鉴 于 每 个 观测 数 
据 都 具有 多 个 数字 ， 调 查 人 员 关 注 了 观测 数据 中 各 个 数字 的 分 布 情况 ， 预 期 是 数字 会 
遵循 统一 的 随机 分 布 。 也 就 是 说 ， 数 字 是 随机 出 现 的 ， 并 且 每 个 数字 出 现 的 概率 相同 
(尽管 首位 数字 可 能 主要 取 某 个 值 ， 而 末 位 数字 可 能 会 受到 四 人 钨 五 入 的 影响 ) 。 表 3-7 
列 出 了 实际 数据 中 各 个 数字 出 现 的 频数 。 


表 3-7: 实验 数据 中 各 数字 的 出 现 情况 





0 14 
1 71 
2 7 
3 65 
4 23 
5 19 
6 12 
7 45 
8 53 
9 6 
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数据 中 315 个 数字 的 分 布 如 图 3-8 所 示 。 我 们 可 以 看 到 ， 这 肯定 不 是 随机 出 现 的 。 


60 
40 
荡 
ES 
| | 
, [| We 
ER EEE | 
0 W678 


数字 

















9 











图 3-8 伊 马 西 ' 卡 里 实验 数据 频数 的 直方 图 


调查 人 员 计 算 了 观测 值 与 期 望 值 的 偏差 情况 。 其 中 ， 期 望 值 是 每 个 数字 在 严格 均 习 分 
布 中 出 现 的 频数 ， 在 此 为 31.5。 为 了 证 明 实 际 分 布 远 远 超出 了 正常 随机 变异 的 范围 ， 
调查 人 员 使 用 了 卡 方 检验 (当然 ， 也 可 以 使 用 重 抽样 过 程 )。 








3.9.4 与 数据 科学 的 关联 


卡 方 检验 的 大 多 数 标 准 用 法 (以 及 费 舍 尔 精确 检验 )， 与 数据 科学 的 联系 并 不 是 十 分 紧密 。 
在 大 多 数 数据 科学 实验 中 ， 无 论 是 A/B 测试 ， 还 是 A/B/C…… 测 试 ， 实 验 目标 并 不 是 要 简 
单 地 确定 统计 显著 性 ， 而 是 要 给 出 最 佳 的 处 理 。 对 此 ， 多 和 臂 老虎 机 算法 (参见 3.10 节 ) 可 
以 给 出 更 完整 的 解决 方案 。 


在 数据 科学 中 ， 卡 方 检验 (尤其 是 费 舍 尔 精确 检验 ) 的 一 个 应 用 是 确定 适当 的 Web 实验 样 
本 规模 。 在 此 类 实验 中 ， 尽 管 具有 大 量 的 页 面 展示 ， 但 是 点 击 率 通 常 很 低 。 过 小 的 计数 率 
可 能 会 导致 实验 无 法 得 出 确定 的 结论 。 这 时 可 以 使 用 费 舍 尔 精确 检验 、 卡 方 检验 等 检验 方 
法 ， 计 算 检验 效能 和 样本 规模 (参见 3.11 节 )。 
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在 科学 研究 中 ， 一些 研究 人 员 广 泛 地 使 用 了 卡 方 检验 ， 以 确定 难以 捉摸 的 统计 显著 性 p 
值 ， 进 而 使 自己 的 研究 成 果 适 合 发 表 。 在 数据 科学 的 应 用 中 ， 并 不 是 将 卡 方 检验 或 类 似 的 
重 抽样 模拟 作为 正式 的 显著 性 检验 ， 而 是 更 多 地 将 此 类 检验 方法 作为 一 种 过 滤器 ， 用 以 确 
定 某 个 效应 或 特征 是 否 值得 进一步 考虑 。 例 如 ， 此 类 方法 可 用 于 空间 统计 学 和 映射 中 ， 以 
确定 空间 数据 是 否 符合 某 个 指定 的 零 分 布 ， 例 如 集中 在 某 一 区 域 的 犯罪 率 是 否 大 于 随机 性 
所 允许 的 程度 。 此 类 方法 还 可 以 用 于 机 器 学 习 中 的 自动 特征 选择 ， 通 过 判定 各 个 特性 的 主 
要 类 是 否 符合 随机 变异 的 范围 ， 即 是 否 存在 过 高 或 过 低 的 问题 ， 进 而 确定 特性 的 主要 类 。 



































。 统计 学 中 一 个 常见 的 过 程 是 检验 观测 情况 与 独立 性 假设 是 否 一 致 ， 例 如 购买 特定 产 
品 的 倾向 是 否 与 性 别 无 关 。 

。 卡 方 分 布 是 一 种 加 入 了 独立 性 假设 的 参考 分 布 。 由 观测 情况 计算 得 到 的 卡 方 统计 量 ， 
必须 与 卡 方 分 布 进行 对 比 。 











3.9.5 ”拓展 阅读 

。 20 世纪 初 , 费 舍 尔 提出 了 “女士 品 茶 ”(Lady Tasting Tea) 这 一 著名 的 例子 。 时 至 今日 ， 
该 例子 依然 简单 有 效 地 展示 了 费 舍 尔 精确 检验 。 在 网 上 搜索 “女士 品 茶 ”， 就 能 发 现 一 
些 很 好 的 文章 。 

。 Stat Trek 网 站 提供 了 一 个 很 好 的 卡 方 检验 教程 。 


3.10 多 尼 老 虎 机 算法 


多 辟 老 虎 机 算法 (multi-arm bandit algorithm) 是 一 种 检验 方法 ， 尤 其 适用 于 Web 测试 。 相 
比 于 传统 的 统计 学 实验 设计 方法 ， 它 实现 了 明显 的 优化 ， 并 且 能 更 快 地 做 出 决策 。 








主要 术语 
多 臂 老虎 机 
一 种 假想 的 老虎 机 ， 提 供 多 个 拉杆 供用 户 选 择 ， 每 个 拉杆 对 应 不 同 的 收益 ， 用 于 
模拟 多 处 理 实验 。 
臂 


表示 实验 中 的 一 个 处 理 ， 例 如 Web 测试 中 的 标题 A。 


获胜 
通过 实验 模拟 老虎 机 上 的 获胜 ， 例 如 客户 点 击 了 链接 。 














传统 的 A/B 测试 需要 根据 特定 的 设计 在 实验 中 采集 数据 ， 去 回答 某 个 具体 的 问题 ， 例 如 : 
“处 理 A 和 处 理 B 哪个 更 好 ? ”假定 一 旦 问题 得 到 解答 ， 就 结束 实验 ， 然 后 继续 操作 结果 。 
你 可 能 已 经 发 现 ， 使 用 这 一 方法 存在 儿 个 问题 。 首 先 ， 我们 得 到 的 答案 并 不 是 结论 性 的 ， 
即 “ 效 果 未 证 明 ”。 换 句 话 说 ， 实 验 结果 可 能 会 表明 一 个 效果 ， 但 是 我 们 没有 足够 的 样本 
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去 证 明 所 表明 的 效果 ， 也 就 无 法 确定 效果 是 否 符合 传统 的 统计 标准 。 这 并 未 回答 我 们 应 该 
做 出 什么 决策 的 问题 。 其 次 ， 我 们 可 能 希望 在 实验 得 出 结论 前 ， 就 开始 利用 之 前 获得 的 结 
果 。 再 次 ， 我 们 希望 能 根据 实验 结束 后 获得 的 其 他 数据 ， 去 更 改 我 们 的 决策 ， 或 是 尝试 其 
他 的 事情 。 传 统 的 实验 方法 和 假设 检验 方法 可 以 追溯 至 20 世纪 20 年 代 ， 这 些 方 法 是 相当 
僵化 的 。 随 着 具有 强大 计算 能 力 的 计算 机 和 软件 的 出 现 ， 我 们 可 以 使 用 一 些 更 强大 、 更 灵 
活 的 方法 。 此 外 ， 数 据 科学 (包括 商业 ) 并 不 十 分 关注 统计 显著 性 ， 而 是 更 加 关注 整体 工 
作 和 结果 的 优化 。 


多 臂 老虎 机 算法 在 Web 测试 中 广 受 欢迎 。 它 可 以 一 次 测试 多 个 处 理 ， 相 比 于 传统 的 统计 设 
计 ， 它 能 更 快 地 得 出 结论 。 该 算法 以 赌博 中 使 用 的 老虎 机 命名 ， 也 称 “ 单 臂 老 虎 机 "， 因 
为 该 算法 在 配置 上 实现 了 稳定 地 从 赌 徒 那 里 掠 取 金 钱 。 让 我 们 想象 一 台 有 多 个 拉杆 的 老虎 
机 ， 每 个 拉杆 以 不 同 的 速率 付款 ， 这 就 是 一 个 多 臂 老 虎 机 ， 即 该 算法 全 称 的 由 来 。 


我 们 的 目标 是 尽 可 能 赢 取 更 多 的 钱 。 有 具体 地 说 ， 越 早 识别 并 确定 可 以 获胜 的 拉杆 越 好 。 但 
是 挑 成 在 于 ， 我 们 并 不 知道 各 个 老虎 机 拉杆 的 回报 速率 ， 只 知道 拉动 老虎 机 拉杆 的 结果 。 
我 们 假设 无 论 拉 的 是 哪个 拉杆 ， 每 次 “获胜 ”将 得 到 相同 数额 的 回报 ， 不 同 之 处 只 在 于 获 
胜 的 概率 。 进 一 步 假 设 ， 我 们 初始 尝试 拉动 每 个 拉杆 50 次 ， 得 到 以 下 结果 。 

。 拉杆 A: 拉动 50 次 ， 获胜 10 次 。 

。 拉杆 B: 拉动 50 次, 获胜 2 次 。 

。 拉杆 C: 拉动 50 次 ,获胜 4 次 。 

一 种 极端 的 做 法 是 :“ 拉 杆 A 看 起 来 像 是 赢家 。 因 此 让 我 们 放弃 尝试 拉动 其 他 的 拉杆 ， 一 
直 拉 动 拉杆 B。” 该 做 法 充分 利用 了 初始 试验 的 结果 。 如 果 拉 杆 A 的 确 更 优 ， 我 们 就 可 以 
尽早 从 中 受益 。 但 另 一 方面 ， 如 果 拉 杆 B 和 拉杆 C 事实 上 更 好 ， 那 么 我 们 就 会 失去 发 现 这 
一 点 的 偶然 性 。 另 一 种 极端 的 做 法 是 :“ 这 看 上 去 完全 在 随机 范围 内 。 让 我 们 继续 以 均等 
的 可 能 性 拉动 各 个 拉杆 。” 这 一 做 法 将 给 予 拉杆 A 的 替代 者 们 一 个 充分 展示 的 偶然 性 。 但 
是 在 此 过 程 中 ， 我 们 的 处 理 看 上 去 并 非 最 优 。 问 题 在 于 这 一 做 法 将 持续 多 长 时 间 ? 老虎 机 
算法 采用 了 一 种 混合 的 方法 。 一 开始 ， 我 们 更 频繁 地 拉动 拉杆 A， 充 分 利用 该 拉杆 初始 看 
上 去 更 优 的 结果 。 但 我 们 并 未 放弃 拉杆 B 和 拉杆 C， 只 是 较 少 地 拉动 它们 。 如 果 拉 杆 A 持 
续 表现 优异 ， 我 们 将 继续 少 拉动 拉杆 B 和 拉杆 C， 而 是 更 频繁 地 拉动 拉杆 A。 而 如 果 拉 杆 
C 的 表现 开始 变 好 ， 拉 杆 A 的 结果 开始 变 糟 ， 这 时 我 们 可 以 减少 拉动 拉杆 A 的 次 数 ， 转 而 
频繁 地 拉动 拉杆 C。 如 果 其 中 一 个 拉杆 被 证 明 是 优 于 拉杆 A 的 ， 只 是 由 于 随机 性 导致 它 未 
在 初始 试验 中 显现 出 来 ， 那 么 现在 就 有 偶然 性 在 进一步 的 检验 中 得 以 显现 。 

现在 ， 我 们 考虑 将 算法 应 用 于 Web 测试 。 这 回 测试 的 不 再 是 多 个 老虎 机 拉杆 ， 而 是 多 个 要 
在 Web 网 站 上 测试 的 报价 、 标 题 、 颜 色 等 。 用 户 可 以 点 击 ( 即 商家 的 “获胜 ”)， 也 可 以 不 
点 击 。 初 始 ， 各 个 报价 的 展示 是 随机 且 平 等 的 。 随 着 测试 的 开展 ， 如 果 一 个 报价 开始 优 于 
其 他 报价 ， 那 么 可 以 更 频繁 地 显示 该 报价 〈 即 “拉动 拉杆 )。 但 问题 是 ， 应 该 如 何 确定 修 
改 拉动 速率 的 算法 的 参数 ? “拉动 拉杆 的 速率 ”应 该 改 成 多 少 ? 何 时 改变 速率 ? 

下 面 给 出 了 一 个 简单 的 算法 ， 它 被 称 为 A/B 测试 的 e- 贪 心算 法。 

(1) 生成 一 个 介 于 0 和 1 之 间 的 随机 数 。 
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(2) 如 果 随 机 数落 在 0 和 s 之 间 (其 中 ，s 是 一 个 介 于 0 和 1 之 间 的 数字 ， 通 常 非常 小 )， 则 
抛 一 次 硬币 (硬币 是 均匀 的 ， 即 得 到 正 反 面 的 概率 均 为 50%)。 
a， 如 果 硬 币 正面 向 上 ， 显 示 报 价 A。 
b， 如 果 硬 币 反 面向 上 ， 显 示 报 价 B。 

(3) 如 果 随 机 数 大 于 或 等 于 ce， 显示 迄今 为 止 具有 最 高 响应 率 的 报价 。 


8 是 控制 该 算法 的 唯一 参数 。 如 果 s = 1， 最 终 得 到 的 是 一 个 标准 的 简单 A/B 测试 ， 每 个 实 
验 对 象 在 处 理 A 和 处 理 B 之 间 随 机 分 配 。 如 果 s = 0， 最 终 得 到 一 个 纯粹 的 贪心 算法 。 贪 
心算 法 无 须 做 进一步 的 实验 ， 将 实验 对 象 Web 访问 者 ) 分 配给 表现 最 好 的 处 理 即 可 。 


一 个 更 复杂 的 算法 使 用 了 汤普森 抽样 “Thompson’s sampling) 方法 。 我 们 可 以 在 每 个 阶段 
中 做 一 次 “抽样 ”( 拉 动 拉 杆 )， 以 最 大 化 选择 最 佳 拉 杆 的 可 能 性 。 当 然 ， 我 们 并 不 知道 哪 
个 拉杆 是 最 佳 的 ， 而 问题 完全 在 于 此 ! 但 是 随 着 每 一 次 连续 的 抽取 ， 我 们 都 能 获得 收益 ， 
进而 获得 更 多 的 信息 。 汤 普 森 抽样 采用 了 贝 叶 斯 方法 。 它 首先 使 用 Beta 分 布 假设 回报 的 
先 验 分 布 。Beta 分 布 常 用 于 指定 贝 叶 斯 问题 中 的 先 验 情况 。 随 着 每 次 抽取 信息 的 累积 ， 通 
过 更 新 累积 信息 ， 我 们 就 可 以 更 好 地 优化 下 一 次 抽取 ， 直 至 选取 最 优 的 拉杆 。 

老虎 机 算法 可 以 有 效 地 应 对 三 种 以 上 的 处 理 ， 并 趋向 于 最 佳 选 择 的 方向 。 对 于 传统 的 统计 
检验 过 程 而 言 ， 三 种 以 上 处 理 决 策 的 复杂 性 ， 远 远 超 出 了 传统 的 A/B 测试 ， 因 此 老虎 机 算 
法 颇具 优势 。 




































































本 节 要 点 
。 传统 的 A/B 测试 基于 随机 抽样 过 程 ， 会 导致 过 度 地 使 用 非 最 优 处 理 。 
。 相 比 而 言 ， 多 辟 老 虎 机 算法 改进 了 抽样 过 程 ， 加 入 了 在 实验 过 程 中 学 到 的 信息 ， 减 
少 了 非 最 优 处 理 的 频数 。 
。 多 辟 老 虎 机 算法 还 有 助 于 有 效 地 应 对 两 种 以 上 的 处 理 。 
。 多 展 老 虎 机 具有 多 种 不 同 的 算法 ,能 够 解决 如 何 将 抽样 概率 从 非 最 优 处 理 转移 到 〈 假 
设 的 ) 最 优 处 理 的 问题 。 











拓展 阅读 

。 John Myles White 撰写 的 Bandit Algorithms for Website Optimization 一 书 ， 对 多 辟 老 虎 机 
算法 进行 了 很 好 的 概要 介绍 。 怀 特 在 书 中 还 提供 了 Python 代码 ， 以 及 评估 老虎 机 算法 
性 能 的 模拟 结果 。 

。 关于 汤普森 采样 的 更 多 (技术性) 介绍 ， 参 见 Shipra Agrawal 和 Navin Goyal 的 论文 
“Analysis of Thompson Sampling for the Multi-armed Bandit Problem” 。 


3.11 检验 效能 和 样本 规模 


在 开展 Web 测试 时 ， 如 何 确定 测试 时 间 ( 即 每 个 处 理 需 要 显示 多 少 次 ) ?尽管 在 网 上 可 以 
找到 很 多 关于 如 何 进行 Web 测试 的 操作 指南 ， 但 并 没有 一 个 很 好 的 一 般 性 指导 。 测 试 时 间 
主要 取决 于 实现 期 望 目标 的 频数 。 
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主要 术语 
效果 规模 
在 统计 检验 中 ， 期 望 能 检测 到 的 效果 的 最 小 规模 ， 例 如 点 击 率 提高 20%。 
检验 效能 
给 定 样本 规模 ， 检 测 到 给 定 效 果 规 模 的 概率 。 


显著 性 水 平 
在 检验 中 所 使 用 的 统计 显著 性 水 平 。 























在 计算 样本 规模 时 ， 其 中 一 个 步骤 是 询问 :“ 一 个 假设 检验 能 否 真正 揭示 处 理 A 和 处 理 B 
之 间 的 差异 ? ”作为 假设 检验 的 结果 ，P 值 不 仅 取决 于 处 理 A 和 处 理 B 之 间 的 真正 差异 ， 
而 且 还 取决 于 抽取 中 的 运气 成 分 ， 即 如 何 选取 实验 组 。 但 是 ， 处 理 A 和 处 理 B 之 间 的 实际 
差异 越 大 ， 这 种 差异 被 实验 揭示 的 可 能 性 也 就 越 大 ， 反 之 ， 如 果 差 异 越 小 ， 那 么 就 需要 更 
多 的 数据 才能 检测 到 这 种 差异 。 在 棒球 运动 中 ， 要 区 分 打击 率 为 0.350 的 击 球 手 和 打击 率 
为 0.200 的 击 球 手 ， 并 不 需要 很 多 的 打数 。 而 要 区 分 打击 率 为 0.300 的 击 球 手 和 打击 率 为 
0.280 的 击 球 手 ， 则 需要 更 多 的 打数 。 


检验 效能 是 指 在 一 定 的 样品 特性 (尺寸 和 变异 性 ) 下 ， 检 测 到 指定 效果 规模 的 概率 。 例 
如 ， 我 们 可 以 假设 在 25 个 打数 中 ， 区 分 打击 率 为 0.330 的 击 球 手 和 打击 率 为 0.200 的 击 球 
手 的 概率 是 0.75。 这 时 ， 效 果 规 模 就 是 0.130 (两 者 打击 率 上 的 差异 )。 而 “检测 ”意味 着 
假设 检验 会 拒绝 “无 差异 ”的 零 假 设 ， 并 得 出 具有 实际 效果 的 结论 。 因 此 ， 在 两 名 击 球 手 
的 25 打数 (n=25) 实验 中 ， 效 果 规 模 为 0.130，( 假 设 ) 检验 效能 为 0.75， 即 75%。 


我 们 可 以 看 到 ， 检 验 效能 中 有 几 个 步骤 是 可 替换 的 ， 很 容易 加 入 多 种 所 需 的 统计 假设 和 公 
式 〈 以 指定 样本 的 变异 性 、 效 果 规 模 、 样 本 规模 以 及 用 于 假设 检验 的 “级别 等 ， 以 及 计 
算 检验 效能 )。 事 实 上 ， 已 经 有 专门 的 统计 软件 可 以 计算 检验 效能 。 数 据 科 学 家 在 发 表 论 
文 或 其 他 工作 中 ， 大 多 不 需要 按部就班 地 经 过 各 个 步骤 来 计算 检验 效能 。 但 是 在 某 些 场合 
下 ， 可 能 还 是 需要 收集 一 些 A/B 测试 的 数据 ， 而 数据 的 收集 或 处 理会 产生 成 本 。 这 时 ， 如 
果 能 大 致 地 了 解 需要 收集 多 少数 据 ， 将 有 助 于 避免 出 现 收集 了 一 些 数据 却 不 能 得 出 结论 性 
结果 的 情况 。 下 面 给 出 一 种 相当 直观 的 替代 做 法 。 


(1) 从 一 些 假设 数据 开始 ， 这 些 数据 代表 了 我 们 对 所 得 数据 的 最 佳 猜测 (可 能 基于 先 验 数 
据 )。 例 如 ， 一 个 箱子 ， 其 中 包含 了 20 个 1 和 80 个 0， 用 于 表示 一 名 打击 率 为 0.200 的 
击 球 手 ， 或 者 包含 “在 网 站 上 花费 的 时 间 ” 的 观测 值 。 

(2) 在 第 一 个 样本 中 添加 所 需 的 效果 规模 ， 以 创建 第 二 个 样本 。 例 如 ， 第 二 个 箱子 ， 其 中 包 
含 了 33 个 1 和 67 个 0, 或 者 在 每 个 初始 的 “在 网 站 上 花费 的 时 间 ” 增 加 25 秒 。 

(3) 从 每 个 箱子 中 ， 抽 取 规 模 为 n 的 自助 样本 。 

(4) 对 两 个 自助 样本 做 置换 (或 基于 公式 的 ) 假设 检验 ， 并 记录 两 者 之 间 的 差异 是 否 具有 统 
计 显 著 性 。 

(5) 重复 第 3 步 和 第 4 步 多 次 ， 并 确定 差异 为 统计 显著 的 频数 。 这 就 是 估计 的 检验 效能 。 




















































































































3.11.1 样本 规模 

检验 效能 计算 最 常用 于 估计 所 需 的 样本 规模 。 

例如 ， 假 设 我 们 要 查看 点 击 率 的 情况 ， 即 点 击 次 数 占 展示 次 数 的 百分比 ， 并 检验 已 有 广告 
与 新 广告 之 间 的 对 比 情况 。 那 么 在 此 研究 中 ， 我 们 需要 积累 多 少 次 点 击 ? 如 果 我 们 只 关注 
能 显示 出 巨大 差异 的 结果 (例如 ，50% 的 差异 ) ， 那 么 使 用 较 小 规模 的 样本 就 可 以 。 另 一 
方面 ， 如 果 我 们 关注 的 是 微小 的 差异 情况 ， 那 么 就 需要 规模 更 大 的 样本 。 一 种 标准 方法 是 
制定 一 个 策略 ， 指 定 新 广告 必须 比 现 有 广告 好 百 分 之 多 少 (例如 10%)， 否 则 将 保持 现 有 
的 广告 不 变 。 这 个 目标 就 称 为 效果 规模 ， 它 决定 了 样本 的 规模 。 

例如 ， 假 设 当前 的 点 击 率 约 为 1.1%， 而 我 们 寻求 10% 的 提升 ， 即 升 至 1.21%。 因 此 我 们 
构建 两 个 箱子 ， 箱 子 A 中 1 占 1.1% (例如 ， 箱子 中 有 110 个 1 和 9890 个 0), 箱子 B 中 1 
占 1.21% (例如 ， 箱 子 中 有 121 个 1 和 9879 个 0)。 我 们 先 尝试 从 每 个 箱子 中 做 300 次 抽 
取 (对 于 广告 而 言 ， 就 是 做 300 次 “展示 ”) 。 假 设 我 们 第 一 次 抽取 的 结果 如 下 。 

。 箱子 A: 3 个 1 

。 箱子 B: 5 个 1 


显而易见 ， 任 何 假设 检验 都 会 认为 这 种 差异 (5 比 3) 是 在 随机 变异 的 范围 之 内 。 但 是 要 
让 任意 假设 检验 都 能 可 靠 地 展示 出 差异 情况 ， 这 里 使 用 的 样本 规模 (每 个 组 中 n= 300) 和 
效果 规模 (差异 10%) 过 小 。 


现在 ， 我 们 可 以 尝试 增 大 样本 规模 ( 试 试 展示 2000 次 )， 并 要 求 点 击 率 提升 更 大 的 幅度 
(例如 ， 提 升 30% 而 不 是 109% ) 。 


假设 目前 的 点 击 率 仍然 是 1.1%， 但 我 们 现在 它 提升 50%， 即 提升 到 1.65%。 我 们 构建 两 
个 箱子 ， 箱 子 A 中 1 依然 占 1.1% (例如 ，110 个 1 和 9890 个 0), 而 箱子 B 中 1 占 1.65% 
(例如 ，165 个 1 和 9868 个 0)。 现 在 ,我 们 尝试 对 每 个 箱子 做 2000 次 抽取 。 假 设 我 们 第 
一 次 抽取 的 结果 如 下 。 

。 箱子 A: 19 个 1 

。 箱子 B: 34 个 1 


对 该 差异 情况 (34 比 19) 的 显著 性 检验 表明 ， 尽 管 它 比 前 面 给 出 的 差异 (5 比 3) 更 接近 
显著 ,但 仍然 是 “不 显著 的 "。 为 了 计算 检验 效能 ， 我 们 需要 多 次 重复 上 面 的 过 程 ， 或 者 
使 用 可 以 计算 检验 效能 的 统计 软件 。 但 是 我 们 的 初始 抽取 表明 ， 即 便 是 要 检测 到 50% 的 提 
升 ， 广告 也 需要 做 上 千 次 的 展示 。 

总 之 ， 在 计算 检验 效能 或 所 需 的 样本 规模 时 ， 有 四 个 成 分 是 可 替换 的 。 它 们 分 别 是 : 

。 样本 规模 

。 要 检测 的 效果 规模 

。 执行 检验 的 显著 性 水 平 ， 即 a 值 

。 检验 效能 

如 果 指 定 了 其 中 三 个 成 分 ， 那 么 就 可 计算 得 到 第 四 个 成 分 。 最 常见 的 情况 是 需要 计算 样本 
的 规模 ， 因 此 必须 指定 其 他 三 个 成 分 。 下 面 的 R 代码 使 用 pwr 软件 包 ， 给 出 了 涉及 两 个 成 
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分 的 测试 ， 其 中 两 个 样本 的 规模 相同 。 
pwr.2p.test(h = ..., N= ..., Sig.level =...，power = ) 


h= effect size (as a proportion) 
n = sample size 


sig.level = the significance level (alpha) at which the test will be conducted 


power = power (probability of detecting the effect size) 





本 节 要 点 
。 在 确定 样本 的 规模 之 前 ， 需 提前 确定 要 执行 的 统计 检验 。 
。 必须 指定 要 检测 效果 的 最 小 规模 。 
。 还 必须 指定 检测 这 一 效果 规模 (检验 效能 ) 所 需 的 概率 。 
。 最 后 ， 还 必须 指定 执行 检验 的 显著 性 水 平 (a 值 ) 。 











3.11.2 ”拓展 阅读 


。 Tom Ryan 撰 写 的 Sample Size Determination and Power 一 书 , 对 此 问题 做 出 了 全 面 的 综述 ， 





适合 阅读 。 





。 针对 该 问题 ， 统 计 顾 问 Steve Simon 以 叙事 风格 撰写 了 一 篇 引人入胜 的 文章 “P. Mean: 


The first three steps in selecting an appropriate sample size” 。 


3.12 小结 














实验 设计 的 原则 是 ， 将 实验 对 象 随机 置 和 进行 不 同 处 理 的 两 个 或 多 个 组 中 。 良 好 的 实验 设 
计 可 以 让 我 们 对 每 种 处 理 的 效果 得 出 有 效 的 结论 。 在 实验 中 ， 最 好 包括 一 个 “不 做 任何 改 
变 ”的 对 照 组 。 虽 然 正 式 的 统计 推断 (包括 假设 检验 、p 值 、! 检验 等 ) 占据 了 传统 统计 学 
课程 和 教材 的 大 部 分 时 间或 空间 ， 但 是 数据 科学 并 不 需要 这 些 形式 化 的 内 容 。 然 而 ， 我 们 











依然 需要 认识 到 随机 变异 性 对 人 类 大 脑 的 轧 弄 。 直 观 的 重 抽 样 过 程 (包括 置换 和 
使 得 数据 科学 家 可 以 衡量 随机 变异 对 数据 分 析 的 影响 程度 。 





自助 法 )， 
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回归 与 预测 





统计 学 中 最 常见 的 目标 可 能 就 是 回答 下 列 问题 ， 变量 和 (很 多 情况 下 是 针 …, 为) 与 变量 
了 是 否 有 关联 ? 如 果 两 者 间 有 关联 ， 那 么 关联 的 关系 如 何 ? 是 否 可 以 使 用 这 种 关联 关系 去 
预测 了 ? 

预测 是 统计 学 与 数据 科学 联系 最 为 紧密 的 一 个 领域 ， 特 别 是 根据 其 他 “预测 ”变量 的 值 去 
预测 结果 (目标) 变量 。 异 常 检测 是 两 个 学 科 紧 密 关联 的 另 一 个 领域 。 尽 管 回归 诊断 最 初 
用 于 数据 分 析 和 改进 回归 模型 ， 但 在 异常 检测 中 ， 回 归 诊 断 可 用 于 检测 异常 的 记录 。 对 相 
关 性 和 线性 回归 的 最 初 使 用 ， 可 追溯 到 一 个 多 世纪 以 前 。 


4.1 简单 线性 回归 


简单 线性 回归 用 于 建 模 两 个 变量 变化 幅度 间 的 关系 。 例 如 , 了 随 着 的 增 大 而 增 大 ,或 者 
了 随 着 革 的 增 大 而 减 小 '。 相 关 性 是 衡量 两 个 变量 间 相 关 情 况 的 另 一 种 方法 ,我 们 已 经 在 1.7 
市 中 介绍 过 。 这 两 者 之 间 的 差别 在 于 ， 相 关 性 衡量 的 是 两 个 变量 的 关联 程度 ， 而 回归 则 量 
化 了 两 个 变量 间 关系 的 本 质 。 















































主要 术语 
响应 变量 
想 要 预测 的 变量 。 


同义词 : 固 变量、 变量 了 目标、 结果 


























注 1: 本 章 内 容 的 版 权 属于 本 书 作者 彼得 ' 布鲁斯 和 安德鲁 ' 布鲁斯 , © 2017 Datastats, LLC。 使 用 需 经 许可 。 
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自 变 


地 


用 于 预测 响应 的 变量 。 
同义词 : 自 变量 、 变 量 交 特征、 属性 
记录 
一 个 表示 特定 个 体 或 实例 的 向 量 ， 由 因子 和 结果 值 组 成 。 
同义词 : 行 、 案 例 、 实 例 、 示 例 
截 距 
回归 线 的 截 距 ， 即 当 了 对 =0 时 的 预测 值 
同义词 : bo、 bo 


回归 系数 
回归 线 的 斜率 。 


拟 合 值 
从 回归 线 获 得 的 估计 值 立 。 
同义词 : 预测 值 
残 差 
观测 值 和 拟 合 值 之 间 的 差异 。 
同义词 : 误差 
最 小 二 乘法 
一 种 通过 最 小 化 残 差 的 平方 和 而 拟 合 回归 的 方法 。 
同义词 : 普通 最 小 二 乘法 











4.1.1 回归 方程 
对 于 “发 生 一 定 的 改变 时 , 了 的 改变 程度 ”问题 ， 简 单线 性 回归 可 以 做 出 准确 的 估计 。 
问题 中 的 变量 筷 和 变 人 对 于 回归 问题 ， 我 们 
力图 使 用 线性 关系 ( 即 一 条 直线 ) 从 变量 人 预测 变量 了 表示 为 : 
Y=bo+bX 

公式 表述 为 :“ 了 等 于 匀 乘 以 b,， 再 加 上 常数 b,。” 其 中 ， 我 们 称 b, 为 截 距 ”( 或 常量 )， 
We 尽管 “系数 ”这 一 术语 通常 用 于 包 ， 但 是 在 R 语言 的 输出 中 ，b。 和 bi 都 
被 称 为 系数 。 变 量 了 被 称 为 响应 变量 或 因 变 量 ， 因 为 它 依赖 于 闷 而 变量 亏 被 称 为 预测 变 

量 或 自 变量 。 机 器 学 习 领 域 的 人 士 习 惯 将 了 称 为 目标 ， 将 蕊 称 为 特征 向 量 。 


下 面 看 一 下 图 4-1 中 的 散 点 图 。 图 中 显示 了 工人 的 棉 侍 接触 年 限 (Exposure) 与 肺 容量 测 








































































































量 ( 即 呼 气流 速 峰值 ，PEFR)。 那 么 PEFR 与 Exposure 的 相关 性 如 何 ? 只 根据 图 4-1 是 很 难 
讲 清楚 的 。 








PEFR 
400 500 600 


300 


200 





100 


Exposure 











图 4-1: 工人 的 棉 尘 接触 年 限 与 肺 容量 的 散 点 图 


简单 线性 回归 试图 找到 “最 优 的 ”直线 ， 去 预测 响应 PEFR 与 预测 变量 Exposure 之 间 的 函 

















PEFR = pu + D Exposure 
R 语言 提供 了 tn 函数 ， 可 用 于 拟 合 线性 回归 。 
model <- tm(PEFR ~ Exposure，data=Lung) 
函数 名 tn 表示 线性 模型 (linear model) ， 符 号 “~” 表 示 变 量 PEFR 是 由 变量 Exposure 预测 的 。 
打印 model 对 象 ， 将 产生 如 下 结果 。 


Call: 
lm(formula = PEFR ~ Exposure, data = lung) 


























Coefficients: 
(Intercept) Exposure 
424.583 -4.185 


截 距 b, 为 424.583， 可 以 解释 为 “一 名 未 接触 棉 尘 的 工人 的 PEFR 预测 值 "。 回 归 系 数 b, 可 
以 解释 为 “工人 接触 棉 尘 的 年 限 每 增加 一 年 ， 那 么 他 的 PEFR 测量 值 将 降低 4.185”。 
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图 4-2 显示 了 该 模型 的 回归 线 。 
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4-2: PEFR 数据 回归 拟 合 线 的 斜率 和 截 距 


4.1.2 ” 拟 合 值 与 残 差 


拟 合 值 和 残 差 是 回归 分 析 中 的 两 个 重要 概念 。 一 般 来 说 ， 数 据 并 不 会 精准 地 落 在 回归 线 
上 ， 因 此 在 回归 方程 中 ， 应 包括 一 个 明确 的 误差 项 e: 








Y=b,+bX,+e, 
我 们 通常 使 用 多 表 示 拟 合 值 ， 即 预测 值 。 拟 合 值 的 计算 公式 为 : 
=D +hY, 
如 和 bb 表示 公式 中 的 系数 不 是 已 知 的， 而 是 估计 出 来 的 。 
符号 : 估计 值 与 已 知 值 
符号 用 于 区 分 估计 值 和 已 知 值 。 因 此 ， 符 号 5 表示 未 知 参数 b 的 估计 值 。 那 


么 ,统计 学 家 为 什么 要 区 分 估计 值 和 真实 值 呢 ?这 是 因为 估计 值 具有 不 确定 
性 ， 而 真实 值 是 固定 不 变 的 。” 





将 原始 值 减 去 预测 值 ， 就 可 以 得 到 残 差 6。 
6 7 -了 
在 RR 语言 中 ， 可 以 使 用 predict 函数 和 residuals 函数 计算 拟 合 值 和 残 差 。 











注 2: 在 贝 叶 斯 统计 学 中 ， 假 定 真实 值 为 一 个 具有 给 定 分 布 的 随机 变量 。 在 贝 叶 斯 方法 中 ， 并 不 是 估计 未 知 
参数 ， 而 是 估计 先 验 分 布 和 后 验 分 布 。 




















fitted <- predict(model) 
resid <- residuals(model) 


图 4-3 显示 了 从 PEFR 数据 拟 合 回归 线 所 得 到 的 残 差 。 残 差 就 是 图 中 数据 和 回归 线 间 的 垂 
直 虚 线 的 长 度 。 
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图 4-3: 回归 线 给 出 的 残 差 (注意 ,图 4-3 与 图 4-2 的 y 轴 太 度 不 同 ， 因 此 斜率 也 明显 不 同 ) 


4.1.3 ”最 小 二 乘法 


那么 模型 是 如 何 拟 合 数 据 的 ?如 果 两 者 间 存 在 清晰 的 关系 ， 那 么 我 们 可 以 手动 地 拟 合 出 一 
条 直线 。 但 是 在 实践 中 ， 回 归 线 是 使 残 差 值 的 平方 和 最 小 化 的 估计 值 。 残 差 值 的 平方 和 也 
称 残 差 平方 和 (RSS)， 计 算 公 式 如 下 。 








RSS= > (7 -7) 
i=] 
= -hhy) 
d= 


其 中 ，B 和 如是 使 RSS 最 小 化 的 值 。 

我 们 称 使 得 RSS 最 小 化 的 方法 为 最 小 二 乘法 回归， 或 普通 最 小 二 乘法 (OLS) 回归 。 尽 管 
人 们 一 般 将 该 方法 归功 于 德国 数学 家 卡尔 弗 里 德里 希 . 高 斯 (Carl Friedrich Gauss) ， 但 它 
却 是 由 法 国 数据 家 阿 德里 安 . 玛 丽 * 勒 让 德 (Adrien-Marie Legendre) 于 1805 年 最 先 公开 
发 表 的。 最 小 二 乘法 回归 给 出 了 一 种 计算 回归 系数 的 简单 公式 。 
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二 
7) 
i 
回 望 过 去 ， 最 小 二 乘法 之 所 以 得 到 广泛 的 使 用 ， 一 个 重要 原因 就 是 该 方法 便于 计算 。 随 着 
大 数据 的 出 现 ， 计 算 速度 依然 是 一 个 重要 因素 。 与 均值 (参见 1.3.2 节 ) 一 样 ， 最 小 二 乘 
法 也 对 离 群 值 敏 感 ， 但 这 一 般 只 在 小 规模 或 中 等 规模 问题 中 是 大 问题 。 参 见 4.6.1 节 对 回 
归 中 的 离 群 值 的 介绍 。 


回归 术语 

分 析 人 员 和 研究 人 员 在 使 用 回归 这 一 术语 时 ， 通 常 指 的 是 线性 回归 。 他 们 关 
注 的 是 如 何 给 出 一 个 线性 模型 ， 去 解释 预测 变量 与 数值 型 结果 变量 之 间 的 关 
系 。 在 正式 的 统计 学 意义 上 ， 回 归还 包括 生成 预测 变量 和 结果 变量 之 间 函 数 
关系 的 非 线 性 模型 。 在 机 器 学 习 领 域 中 ， 该 术语 的 用 法 偶尔 也 会 十 分 宽泛 ， 
它 可 以 指 代 任 何 生 成 数值 型 预测 结果 的 预测 模型 (不同 于 预测 二 元 输出 或 分 
类 结果 的 分 类 方法 )。 


4.1.4 ”预测 与 解释 〈 齐 析 ) 

一 直 以 来 ， 回 归 主 要 用 于 展示 预测 变量 和 结果 变量 之 间 是 否 存在 一 种 假定 的 线性 关系 。 回 
归 的 目标 是 理解 变量 之 间 的 关系 ， 并 使 用 回归 所 拟 合 的 数据 去 解释 该 关系 。 在 这 类 应 用 
中 ， 人 们 关注 的 主要 是 回归 方程 斜率 的 估计 值 ;。 例 如 ， 经 济 学 家 想 要 知道 消费 者 支出 与 
GDP 增长 之 间 的 关系 ， 公 共 卫 生 官 员 可 能 想 知道 公共 信息 运动 对 于 提升 安全 性 行为 是 否 有 
效 。 这 时 ， 人 们 关注 的 并 非 是 如 何 预测 个 别 的 案例 ， 而 是 理解 数据 中 的 整体 关系 。 

随 着 大 数据 的 出 现 ， 回 归 广 泛 用 于 构建 对 新 数据 预测 单个 结果 的 模型 ( 即 预测 模型 )， 而 
不 是 解释 手头 已 有 的 数据 。 在 这 类 应 用 中 ， 人 们 主要 关注 的 是 拟 合 值 Y。 例 如 ， 在 市 场 营 
销 中 ， 回 归 可 用 于 预测 收入 如 何 随 广告 规模 的 变化 而 变化 。 一 些 大 学 也 使 用 回归 ， 根 据 学 
生 的 STA 分 数 预测 学 生 的 GPA。 


尽管 在 一 个 很 好 地 拟 合 了 数据 的 回归 模型 中 ,XX 的 变化 将 导致 了 发 生变 化 ， 但 是 回归 方程 
本 身 并 未 证 明 其 中 的 因果 关系 。 要 得 出 关于 因果 关系 的 结论 ， 必 须 在 更 宽泛 的 场景 下 理解 
二 者 之 间 的 关系 。 例 如 ， 回 归 方程 可 能 表明 Web 广告 的 点 击 量 与 会 话 数量 之 间 存 在 一 种 确 
定性 关系 。 但 是 让 我 们 得 出 点 击 广告 会 提升 销量 这 一 结论 的 并 不 是 回归 方程 ， 而 是 我 们 对 
营销 过 程 的 认 知 。 反 之 则 不 成 立 。 


































































































本 节 要 点 
。 回归 方程 将 响应 变量 了 和 预测 变量 闷 间 的 关系 建 模 为 一 条 直线 。 
。 回归 模型 给 出 了 拟 合 值 和 残 差 ， 即 响应 的 预测 值 和 预测 的 误差 。 
。 回归 模型 通常 使 用 最 小 二 来 法 拟 合 。 
。 回归 可 用 于 预测 和 解释 。 
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4.1.5 拓展 阅读 
对 预测 与 解释 的 深入 介绍 ， 可 以 阅读 Galit Shmueli 的 论文 “To Explain or to Predict”。 


4.2 ”多 元 线性 回归 


当 存 在 多 个 预测 变量 时 ， 我 们 可 以 对 4.1 节 中 给 出 的 回归 方程 做 简单 的 扩展 。 








Y=b, +DX,+h,X,+..……+b,X,+e 




















时 
| 
ES 


现在 我 们 得 到 的 不 再 是 一 条 直线 ， 而 是 一 个 线性 模型 。 在 模型 中 ， 每 个 系数 与 其 变量 
征 ) 间 的 关系 是 线性 的 。 




















主要 术语 
均 方 根 误差 
回归 均 方 误差 的 平方 根 ， 它 是 比较 回归 模型 时 使 用 最 广泛 的 度量 。 
同义词 : RMSE 
标准 残 差 
与 均 方 根 误差 的 计算 一 样 ， 只 是 根据 自由 度 做 了 调整 。 
同义词 : RSE 
尺 方 


可 以 被 模型 解释 的 变异 的 比例 ， 值 介 于 0 到 1 之 间 。 
同义词 : 决定 系数 、R” 





1 统计 量 
预测 因子 的 系数 ， 除 以 系数 的 标准 误差 。 它 提供 了 一 种 比较 模型 中 变量 重要 性 的 
度量 。 

加 权 回 归 


在 回归 中 ， 记 录 具 有 不 同 的 权重 。 














注意 ， 简 单线 性 回归 中 的 所 有 其 他 概念 ， 包 括 对 最 小 二 乘法 拟 合 ， 以 及 拟 合 值 和 残 差 的 定 
义 ， 都 可 以 扩展 到 多 元 线性 回归 中 。 例 如 ， 拟 合 值 可 以 由 下 式 给 出 。 























=D + XY, +b,Y,, ++ 


4.2.1 美国 金 县 房屋 数据 案例 

房产 估 值 是 使 用 回归 的 一 个 例子 。 在 美国 ， 为 评估 某 房 产 的 税 值 ， 金 县 (King County) 的 
评估 师 必 须 评 估 该 房产 的 价值 。 通 过 访问 Zillow 等 热门 网 站 ， 购 房 者 和 专业 人 士 可 以 大 体 
了 解 一 个 合理 的 价格 。 下 面 使 用 R 列 出 的 数据 存储 在 一 个 名 为 house 的 data.frame 中 。 数 
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据 是 美国 华盛顿 金 县 的 部 分 房产 数据 。 
head(house[, c("AdjSalePrice", "SqFtTotLiving", "SqFtLot", "Bathrooms", 


"Bedrooms", "BldgGrade")]) 
Source: local data frame [6 x 6] 


AdjSalePrice SqFtTotLiving SqFtLot Bathrooms Bedrooms BldgGrade 


(db1) (int) (int) (dbl) (int) (int) 
1 300805 2400 9373 3.00 6 7 
2 1076162 3764 20156 5 4 10 
3 761805 2060 26036 1.75 4 8 
4 442065 3200 8618 3.75 5 7 
5 297065 1720 8620 1.75 4 7 
6 411781 930 1012 1.50 2 8 





我 们 的 目的 是 从 其 他 多 个 变量 中 预测 房屋 的 销售 价格 。tm 函数 在 回归 方程 公式 右 侧 添 加 
了 更 多 的 项 ， 以 实现 对 多 元 线性 回归 的 处 理 。 在 上 面 的 代码 中 ， 我 们 还 要 设置 函数 的 参数 
na.action=na.omtt， 使 得 模型 可 以 丢弃 那些 有 缺失 值 的 记录 。 命 令 如 下 。 

house_Lm <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 


Bedrooms + BldgGrade, 
data=house, na.action=na.omit) 


打印 house_ln 对 象 将 产生 如 下 输出 。 


house_Lm 









































Call: 
1lm(formula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
Bedrooms + BldgGrade, data = house, na.action = na.omit) 


Coefficients: 
(Intercept) SqFtTotLiving SqFtLot Bathrooms 
-5.219e+05 2.288e+02 -6.051e-02 -1.944e+04 
Bedrooms BLdgarade 
-4.778e+04 1.061e+05 





对 系数 的 解释 与 简单 线性 回归 中 的 一 样 ， 即 如 果 假 定 所 有 其 他 变量 部 保持 不 变 ， 那 么 系数 
bj 就 是 筷 (k 去 站) 的 单位 变化 所 导致 的 预测 值 ? 的 变化 情况 。 例 如 ， 房 屋 的 建筑 面积 每 增 
加 一 平方 英尺 ， 房 屋 的 估价 将 增加 约 229 美元 ， 如 果 面 积 增加 1000 平方 英尺 ， 那 么 房屋 
的 估计 值 将 增加 228 800 美元 。 


4.2.2 ”评估 模型 
从 数据 科学 角度 看 ， 最 重要 的 性 能 度量 是 均 方 根 误差 (RMSE)。 均 方 根 误差 是 预测 值 疙 均 


方 误差 的 平方 根 ， 计 算 公 式 如 下 。 
放 = > 0,—D) 
n 


均 方 根 误差 测量 了 模型 的 整体 精度 ， 是 将 模型 与 其 他 模型 (包括 使 用 机 器 学 习 技术 拟 合 的 





















































模型 ) 对 比 的 基础 。 标 准 残 差 (RSE) 类 似 于 均 方 根 误差 。 给 定 p 个 预测 变量 ， 标 准 残 差 
的 计算 公式 为 : 


2 -7D) 
(n-p-—l) 


这 两 者 之 间 的 唯一 差别 在 于 ， 标 准 残 差 的 分 母 是 自由 度 ， 而 非 记录 个 数 (参见 3.7 节 )。 对 
于 线性 回归 而 言 ， 均 方 根 误 差 和 标准 残 差 之 间 的 差异 在 实践 中 会 非常 小 ， 尤 其 是 在 大 数据 
应 用 中 。 

可 以 使 用 R 语言 的 summary 函数 计算 一 个 模型 的 标准 残 差 等 度量 。 


summary(house_Lm) 


RSE= 















































Call: 
lm(formula = AdjSaLePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
Bedrooms + BldgGrade, data = house, na.action = na.omit) 


Residuals: 
Min 1Q Median 3Q Max 
-1199508 -118879 -20982 87414 9472982 


Coefficients: 
Estimate Std. Error t vaLue Pr(>|t|) 


(Intercept) -5.219e+05 1.565e+04 -33.349 < 2e-16 *** 
SqFtTotLiving 2.288e+02 3.898e+00 58.699 < 2e-16 *** 
SqFtLot -6.051e-02 6.118e-02 -0.989 0.323 
Bathrooms -1.944e+04 3.625e+03 -5.362 8.32e-08 *** 
Bedrooms 4.778e+04 2.489e+03 -19.194 < 2e-16 *** 
Btdgorade 1.061e+05 2.396e+03 44.287 < 2e-16 *** 
signif. Codes: © '***! 0.001 '**' 0.01 '*' 0.05 '.' 0.1' "1 


Residual standard error: 261200 on 22683 degrees of freedom 
Multiple R-squared: 0.5407, Adjusted R-squared: 0.5406 
F-statistic: 5340 on 5 and 22683 DF, p-value: < 2.2e-16 


可 以 看 到 ， 程 序 输 出 中 有 另 一 个 有 用 的 度量 ， 就 是 决定 系数 ， 也 称 尺 方 统计 量 ， 即 RR。 决 
定 系 数 的 取 值 范围 在 0 ~ 1 之 间 ， 它 测量 了 数据 中 可 以 由 模型 解释 的 变异 性 的 比例 。 决 定 
系数 主要 用 于 解释 回归 ， 它 可 以 评估 模型 拟 合 数据 的 程度 。 决 定 系 数 的 计算 公式 为 : 


> (07 一 乡 ) 

2 7) 
公式 中 ， 分 母 值 与 》 的 方差 成 正比 。 在 tn 函数 的 输出 中 ， 还 给 出 了 一 个 调整 后 的 尺 方 值 。 
该 度量 根据 自由 度 做 了 调整 。 在 多 元 线性 回归 中 ， 它 与 尺 方 之 间 几 乎 不 存在 明显 的 差异 。 


在 函数 的 输出 中 ， 与 估计 系数 一 并 给 出 了 系数 的 标准 误差 (SE) 和 + 统计 量 。t 统 计量 的 
计算 公式 为 : 
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入 


b 
Ee 
SE(D) 


1 统计 量 及 其 镜像 ( 即 p 值 ) 测定 了 系数 “统计 显著 ”的 程度 ， 即 超出 预测 变量 和 目标 变 
量 的 随机 分 配 可 能 生成 的 范围 。1 统 计量 越 大 ， 即 p 值 越 低 ， 那 么 预测 变量 的 显著 性 越 高 。 
鉴于 “简约 性 ”(parsimony) 是 建 模 中 的 一 个 基本 理念 ， 此 类 工具 对 于 指导 如 何 选 择 添加 
到 预测 因子 中 的 变量 十 分 有 用 (参见 4.2.4 节 )。 











除了 1 统计 量 之 外 ，R 所 























其 他 统计 软件 包 通 常 还 会 给 出 p 值 和 统计 量 。 例 





如 , p 值 在 R 语言 输出 中 显示 为 Pr(>|t|) 列 。 数 据 科学 家 一 般 并 不 关注 这 些 
统计 量 的 解释 ， 也 不 关注 统计 显著 性 的 问题 。 数 据 科学 家 主要 关注 的 是 1 统 

















计量 ， 并 且 使 用 它 来 指导 是 否 需 要 将 一 个 预测 因子 加 入 到 模型 中 。 如 果 1 统 











计量 很 大 ， 即 p 值 接近 





统计 量 非 常 小 ， 则 表示 该 预测 因子 应 该 被 丢弃 。 更 多 细节 ， 参 见 3.4.1 节 。 


4.2.3 ”交叉 验证 


经 典 的 统计 回归 度量 (R*、F 统 计量 


拟 合 模型 所 使 用 的 同一 数据 上 。 我 们 可 以 直观 地 感受 到 ， 从 原始 数据 中 取出 一 些 数据 ， 并 
不 在 拟 合 模 型 时 使 用 这 些 数 据 ， 这 种 做 法 是 十 分 有 意义 的 。 随 后 ， 我 们 可 以 使 用 这 些 留 出 




















于 0， 就 表示 应 该 将 预测 因子 保留 在 模型 中 。 如 果 + 




















和 p 值 ) 都 是 “样本 内 ”(in-sample) 度量 ， 即 应 用 于 











的 数据 ( 即 验 证 集 ) 去 验证 模型 的 效果 。 通 常 ， 我 们 可 以 使 用 大 部 分 数据 去 拟 合 模型 ， 然 


后 使 用 余下 的 较 小 一 部 分 数据 去 验证 模型 。 





这 种 “样本 外 ”(out-of-sample) 验证 的 理念 并 不 新 颖 ， 但 是 直到 更 大 规模 的 数据 集 越 来 越 
普遍 时 ， 该 理念 才 真正 地 得 以 实施 。 在 使 用 小 数据 集 时 ， 分 析 人 员 总 希望 使 用 所 有 的 数据 
去 拟 合 最 优 模型 。 
然而 ， 在 使 用 验证 样本 时 ， 我 们 会 受 限 于 一 些 不 确定 性 ， 这 些 不 确定 性 来 自 小 规模 验证 样 
本 的 变异 性 。 如 果 我 们 选择 了 不 同 的 验证 样本 ， 那 么 在 评估 中 会 产生 何 种 程度 的 差异 呢 ? 
交叉 验证 将 验证 样本 这 一 理念 扩展 到 多 个 依次 进行 验证 的 样本 上 。 基 本 的 Kk 折 (fold) 交 
又 验证 的 算法 如 下 。 

(取出 1 的 数据 ， 作 为 验证 样本 。 
(2) 用 余下 的 数据 训练 模型 。 

(3) 将 训练 模型 应 用 于 验证 集 上 (进行 打分 )， 并 记录 所 需 的 模型 评估 指标 。 














(4) 将 最 初 取 昌 





(5) 重复 第 2 步 和 第 3 步 。 
(6) 重复 上 述 步骤 ， 直 至 验证 集 使 用 了 每 个 记录 。 
(7) 对 模型 评 佑 度量 取 平 均 或 进行 组 合 。 


上 面 将 数据 划分 为 训练 样本 和 验证 样本 的 过 程 ， 也 被 称 为 折 。 




















的 1 大 数据 放 回 ， 再 取出 1 大 数据 ， 其 中 不 包括 上 一 次 取出 的 任何 记录 。 





4.2.4 ”模型 选择 和 逐步 回归 法 


在 一 些 问题 中 ， 有 很 多 变量 可 以 作为 回归 中 的 预测 因子 。 例 如 ， 要 预测 一 处 房屋 的 价值 ， 
可 以 使 用 房屋 面积 或 建造 年 份 等 变量 。 在 R 中 ， 很 容易 将 这 些 变量 添加 到 回归 方程 中 。 
house_full <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
Bedrooms + BldgGrade + PropertyType + NbrLivingUnits + 
SqFtFinBasement + YrBuilt + YrRenovated + 


NewConstruction, 
data=house, na.action=na.omit) 


但 是 ， 添 加 更 多 的 变量 并 不 意味 着 就 会 得 到 一 个 更 好 的 模型 。 在 模型 的 选择 中 ， 统 计 学 家 
使 用 了 奥 卡 姆 剃刀 原则 (principle of Occam's razor) : 在 其 他 条 件 相 同 的 情况 下 ， 应 优先 
选用 更 简单 的 模型 而 不 是 更 复杂 的 模型 。 

添加 额外 的 变量 ， 几 乎 总 会 降低 均 方 根 误 差 并 增 大 玉 。 因 此 ， 这 些 统计 量 并 不 适用 于 指导 
模型 的 选择 。20 世纪 70 年 代 ， 著 名 的 日 本 统计 学 家 赤字 弘 次 (Hirotugu Akaike) 提出 了 
一 种 名 为 AlIC ( 赤 池 信息 量 准则 ) 的 指标 ， 对 给 模型 添加 项 进行 了 惩罚 。 用 于 回归 的 AIC 
的 计算 公式 如 下 : 















































AIC = 2P +n log(RSS/n) 


其 中 ,已 是 变量 的 数量 , 是 记录 的 数量 。 目 标 是 找 出 使 AIC 最 小 的 模型 。 如 果 模 型 具有 
个 额外 变量 ， 那 么 惩罚 项 为 2k。 





AIC、BIC 和 Mallows Cp 

AIC 的 计算 公式 可 能 看 上 去 颇 为 神秘 。 事 实 上 ， 它 基于 信息 理论 中 的 渐 近 结 

果 。AIC 有 多 个 变 体 。 

。AICc: 针对 小 规模 样本 修正 的 AIC。 

。BIC ( 贝 叶 斯 信息 准则 ) : 类 似 于 AIC, 但 是 在 模型 中 额外 添加 了 变量 ， 
此 具有 更 强 的 惩罚 。 

。 Mallows Cp: AIC 的 一 种 变 体 ， 由 Colin Mallows 提出 。 

数据 科学 家 通常 既 不 需要 关心 上 述 样 本 内 度量 间 的 差异 ， 也 不 需要 关心 这 些 

度量 的 底层 理论 。 














| 





那么 如 何 找 到 能 使 AIC 最 小 的 模型 ? 一 种 方法 是 使 用 全 子 集 回归 法 (all subset regression)， 
它 能 搜索 所 有 可 能 的 模型 。 该 方法 的 计算 成 本 很 高 ， 对 于 具有 大 规模 数据 和 大 量变 量 的 问 
题 是 不 可 行 的 。 另 一 种 替代 方法 更 具 吸 引力 ， 它 使 用 了 逐步 回归 法 ， 通 过 连续 地 添加 并 丢 
弃 预 测 因子 ， 发 现 可 降低 AIC 的 模型 。 在 由 Venebles 和 Ripley 开发 的 MASS 软件 包 中 提供 
了 一 个 名 为 stepAIC 的 逐步 回归 计算 函数 。 

library(MASS) 


step <- stepAIC(house full, direction="both") 
step 











Call: 
lm(formula = AdjSalePrice ~ SqFtTotLiving + Bathrooms + Bedrooms + 
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BldgGrade + PropertyType + SqFtFinBasement + YrBuilt, data = house0， 


na.action = na.omit) 


Coefficients: 
(Intercept) 
6227632.22 
Bathrooms 
44721.72 
BldgGrade 
139179 .23 
PropertyTypeTownhouse 
92216.25 
YrBuilt 
-3592.47 














SqFtTotLiving 

186.50 

Bedrooms 

-49807.18 
PropertyTypeSingle Family 
23328.69 

SqFtFinBasement 

9.04 


该 函数 选取 了 一 个 模型 ， 其 中 的 多 个 变量 抽取 自 house_full:SqFtLot、NbrLivingUnits、 
YrRenovated 和 NewConstruction。 


更 为 简单 的 做 法 是 前 向 选择 (forward selection) 和 后 向 选择 (backward selection) 。 在 前 向 
选择 中 ， 开 始 时 没有 预测 因子 ， 而 是 依次 添加 的 。 在 每 一 步 添加 对 R 具有 最 大 贡献 的 预测 
因子 。 当 贡献 不 再 统计 显著 时 ， 停 止 继 续 添加 。 在 后 向 选择 (或 后 向 删除 ) 中 ， 一 开始 就 
给 出 了 一 个 完整 的 模型 ， 然 后 从 中 逐步 移 除 不 再 统计 显著 的 预测 因子 ， 直 到 模型 中 所 有 预 
因子 都 是 统计 显著 的 。 


测 























惩罚 回归 的 思想 类 似 于 AIC。 拟 合 模 型 的 函数 并 不 是 显 式 地 搜索 一 组 离散 的 模型 ， 而 是 添 


加 了 一 个 新 限制 ， 对 有 多 个 变量 (参数 ) 的 模型 进行 惩罚 。 











惩罚 回归 不 像 逐 步 回 归 、 前 向 








和 后 向 选择 那样 要 完全 清除 预测 变量 ， 而 是 通过 减少 系数 来 应 用 惩罚 ， 在 一 些 情况 下 ， 黄 


会 减少 至 接近 于 0。 常 见 的 惩罚 回归 是 岭 回归 和 LASSO 回归 。 





对 于 模型 的 评估 和 调 优 而 言 ， 全 子 集 回归 和 逐步 回归 是 “样本 内 ”方法 。 这 意味 着 模型 选 
取 可 能 会 受 限于 过 拟 合 ， 不 能 很 好 地 应 用 于 新 数据 。 为 了 避免 出 现 这 一 问题 ， 一 种 常用 的 


方法 是 使 用 交叉 验证 去 验证 模型 。 














在 线性 回归 中 ， 过 拟 合 通常 不 是 大 问题 ， 因 为 线性 回 


二 








本 


对 数据 给 出 的 是 一 种 简单 〈 线 性 ) 全 局 结构 。 对 于 更 为 复杂 的 模型 而 言 ， 尤 其 是 响应 本 地 


数据 结构 的 迭代 过 程 ， 








4.2.5 ”加 权 回 归 


在 很 多 情况 下 ， 尤 其 是 分 析 复 杂 的 调查 时 ， 统 计 学 家 会 使 用 加 权 


可 能 认为 加 权 回 归 在 下 面 两 种 情况 中 十 分 有 用 。 




















反方 差 权 重 〈 当 不 同 观测 值 

















使 用 了 不 同 的 精度 测量 时 )。 





交叉 验证 是 一 种 非常 重要 的 工具 ， 更 多 详细 内 容 参 见 4.2.3 市 。 





回归 方法 。 而 数据 科学 家 


。 分 析 聚 合 的 数据 ， 加 权 变 量 编码 了 聚合 数据 中 每 行 代表 了 多 少 个 原始 观测 值 。 


以 房屋 数据 为 例 ， 历 史 销 售 数 据 没 有 近期 销售 数据 可 靠 。 在 使 用 DocumentDate 确定 销售 年 
份 后 ， 我 们 可 以 计算 自 2005 年 (数据 的 开始 年 份 ) 以 来 的 年 份 数 ， 以 此 作为 eight 变量 。 


library(lubridate) 





house$Year = year(house$DocumentDate) 


houseSWeight = house$Year - 


2005 








7 





下 面 ， 我 们 使 用 设置 了 weight 参数 的 tn 函数 计算 加 权 回 归 。 


house wt <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
Bedrooms + BldgGrade, 
data=house, weight=Weight) 
round(cbind(house_lm=house_lm$coefficients, 
house_wt=house wt$coefficients), digits=3) 








house_Lm house_wt 
(Intercept) -521924.722 -584265.244 
SqFtTotLiving 228.832 245.017 
SqFtLot -0.061 -0.292 
Bathrooms -19438.099 -26079.171 
Bedrooms -47781.153 -53625.404 
BldgGrade 106117.210 115259.026 











加 权 回 归 的 系数 与 原始 的 回归 系数 略 有 差异 。 








本 节 要 点 
。 多 元 线性 回归 建 模 了 响应 变量 了 与 多 个 预测 变量 卫 ,…, 加 ,之 间 的 关系 。 
。 均 方 根 误差 (RMSE) 和 RR 是 评价 模型 最 重要 的 度量 。 
。 回归 系数 的 标准 误差 可 用 于 度量 变量 对 模型 的 贡献 的 可 靠 性 。 
。 逐步 回归 是 一 种 自动 确定 模型 中 应 包括 哪些 变量 的 方法 。 
。 加 权 回 归 用 于 拟 合 函 数 中 ， 可 以 对 特定 记录 给 予 更 大 或 更 小 的 权重 。 


4.3 ”使 用 回归 做 预测 


在 数据 科学 中 ， 回 归 的 主要 目的 是 预测 。 请 记 住 这 一 点 ， 因 为 作为 一 种 上 昌 有 的 统计 学 方 
法 ， 回 归 主 要 用 于 传统 的 解释 性 建 模 而 不 是 预测 。 
































主要 术语 
预测 区 间 
个 体 预 测 值 的 不 确定 区 间 范 围 。 
外 推 法 


将 模型 扩展 到 拟 合 所 用 的 数据 范围 之 外 。 











4.3.1 外 推 法 的 风险 

回归 模型 不 应 外 推 到 所 使 用 的 数据 范围 之 外 。 回 归 模 型 仅 对 具有 足够 数据 值 的 预测 因子 有 
效 (即便 是 在 有 充足 数据 可 用 的 情况 下 ， 也 可 能 存在 其 他 一 些 问题 ,参见 4.6 节 )。 举 一 个 
极端 的 例子 ， 假 定 我 们 使 用 model_tn 预测 一 块 面积 为 5000 平方 英尺 的 空地 的 售 价 。 在 这 
种 情况 下 ， 所 有 与 建筑 物 有 关 的 预 汕 因子 的 值 都 为 0， 进 而 回归 方程 会 给 出 一 个 鄞 诞 的 预 
测 值 ， 即 -53521900 + 5000 x (-0.0605) = -522202.5 美元 。 为 什么 会 这 样 ? 数据 中 仅 包含 具 
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有 建筑 物 的 地 块 ， 并 没有 空地 的 相关 记录 。 因 此 ， 模 型 不 知 该 如 何 预测 空地 的 售 价 。 


4.3.2 ”置信 区 间 和 预测 区 间 


许多 统计 量 涉及 对 变异 性 (不 确定 性 ) 的 测量 和 理解 。 回 归 输 出 中 的 1 统计 量 和 pp 值 以 一 
种 正式 的 方式 处 理 该 问题 ， 有 时 这 对 于 变量 的 选择 十 分 有 用 (参见 4.2.2 节 )。 另 一 种 更 有 
用 的 指标 就 是 置信 区 间 ， 它 是 围绕 回归 系数 和 预测 的 不 确定 性 区 间 。 要 理解 置信 区 间 ， 一 
种 简单 的 方式 是 使 用 自助 法 〈 使 用 自助 过 程 的 详细 信息 ， 参 见 2.4 节 )。 在 各 种 统计 软件 
的 输出 中 ， 最 常见 的 回归 置信 区 间 是 回归 参数 (系数) 的 置信 区 间 。 下 面 给 出 的 自助 算法 
(bootstrap algorithm)， 可 以 对 具有 PP 个 预测 因子 入 条 记录 ( 行 ) 的 数据 集 ， 生 成 一 个 回 
归 参 数 (系数 ) 的 置信 区 间 。 


(1) 将 每 行 数据 (包括 结果 变量 ) 作为 一 张 “ 票 ”(ticket)， 并 将 所 有 的 n 张 票 置 于 同一 个 
箱子 中 。 

(2) 从 箱子 中 随机 抽取 一 张 票 ， 记 录 票 上 的 值 ， 并 将 票 放 回 箱子 。 

(3) 重复 第 2 步 n 次 ,得 到 一 个 自助 法 重 抽 样 。 

(4) 对 自助 样本 做 回归 拟 合 ， 记 录 估 计 的 回归 系数 。 

(5) 重复 第 2 步 到 第 4 步 多 次 (例如 1000 次)。 

(06) 现在， 每 个 回归 系数 有 1000 个 自助 值 。 找 到 每 个 系数 的 百 分 位 数 。 例 如 ， 对 于 90% 置 
信 区 间 是 第 5 百 分 位 数 和 第 95 百 分 位 数 。 

要 生成 回归 系数 的 实际 自助 置信 区 间 ， 可 以 使 用 R 的 Boot 函数 ， 也 可 以 简单 地 使 用 基于 

公式 的 置信 区 间 ， 这 是 R 的 惯常 输出 。 两 者 在 概念 上 的 意义 和 解释 是 一 样 的 ， 它 们 对 于 数 

据 科学 家 来 说 并 不 十 分 重要 ， 他 们 关心 的 是 回归 系数 。 数 据 科 学 家 更 感 兴趣 的 是 围绕 预测 

变量 值 〈( 即 芯 ) 的 置信 区 间 。 围 绕 的 不 确定 性 来 自 两 个 方面 : 

。 相关 的 预测 因子 及 其 回归 系数 的 不 确定 性 (参见 本 节 前 面 的 自助 算法 ) 

。 单个 数据 点 固有 的 额外 误差 


单个 数据 点 的 误差 可 以 理解 为 :即便 我 们 确切 地 知道 一 个 回归 方程 (例如 ， 如 果 我 们 有 大 
量 的 记录 可 以 拟 合 出 回归 方程 )， 对 于 一 组 给 定 的 预测 因子 值 ， 回 归 方 程 的 实际 结果 值 也 
会 存在 一 些 变化 。 例 如 ， 有 8 个 房间 、3 间 浴 室 和 1 个 地 下 室 ， 且 面积 为 6500 平方 英尺 的 
几 个 房屋 ， 在 房价 上 可 能 也 会 存在 一 些 差 异 。 我 们 可 以 使 用 拟 合 值 的 残 差 去 建 模 单个 数据 
点 的 误差 。 对 回归 模型 误差 和 单个 数据 点 误差 建 模 的 自助 算法 如 下 。 


(1) 从 数据 中 抽取 出 一 个 自助 样本 (本 书 已 经 给 出 了 详细 的 做 法 )。 

(2) 拟 合 回归 ， 并 预测 新 的 值 。 

(3) 从 原始 回归 拟 合 中 随机 取出 一 个 残 差 ， 添 加 到 预测 值 中 ， 并 记录 结果 。 
(4) 重复 第 1 步 到 第 3 步 多 次 〈 例 如 ，1000 次)。 

(5) 找 出 结果 的 第 2.5 百 分 位 数 和 第 97.5 百 分 位 数 。 





















































































































































































































































预测 区 间 还 是 置信 区 间 ? 

预测 区 间 涉 及 围绕 单个 值 的 不 确定 度 ， 而 置信 区 间 则 与 由 多 个 值 计算 得 到 的 
统计 量 (如 均值 ) 相关 。 因 此 ， 对 于 同一 个 值 ， 预 测 区 间 的 范围 通常 要 比 置 
信 区 间 宽 一 些 。 为 了 在 自助 模型 中 建 模 单个 值 的 误差 ， 需 要 选择 单个 残 差 去 
处 理 预测 值 。 这 时 ， 我 们 应 该 选用 两 者 中 的 哪 一 个 ”这 取决 于 具体 的 分 析 场 
景 和 目的 。 但 是 ， 数 据 科 学 家 通常 关注 的 是 特定 的 单个 预测 ， 因 此 预测 区 间 
更 适用 。 如 果 在 应 该 使 用 预测 区 间 时 使 用 了 置信 区 间 ， 将 严重 低估 给 定 预测 
值 的 不 确定 度 。 























































































































本 节 要 点 
。 超出 数据 范围 的 外 推 会 导致 误差 。 
。 置信 区 间 量 化 了 回归 系数 的 不 确定 度 。 
。 预测 区 间 量 化 了 单个 预测 中 的 不 确定 度 。 
。 包括 民 在 内 的 很 多 统计 软件 ， 都 会 使 用 公式 在 默认 或 指定 输出 中 给 出 预测 区 间 和 置 
信 区 间 。 
。 也 可 以 使 用 自助 法 确定 置信 区 间 ， 该 做 法 的 解释 和 理念 同上 。 


4.4 回归 中 的 因子 变量 


因子 变量 (factor variable) 也 称 为 分 类 变量 ， 它 是 一 组 数量 有 限 的 离散 值 。 例 如 ， 贷 款 目的 
可 以 是 “债务 合并 “办 婚礼 *” “购买 汽车 ”等 。 因 子 变 量 的 一 种 特殊 情况 是 二 元 〈 即 是 / 否 ) 
变量 ， 也 称 为 指示 变量 。 回 归 需 要 数值 输入 ， 因 此 ， 要 在 回归 模型 中 使 用 因子 变量 ， 需 要 对 
因子 变量 进行 重新 编码 。 最 常用 的 编码 方法 是 将 因子 变量 转换 为 一 组 二 元 虚拟 变量 
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主要 术语 


二 元 的 0/1 变量 ， 通 过 对 因子 数据 重新 编码 得 到 ， 可 用 于 回归 模型 或 其 他 模型 。 
参考 编码 


统计 学 家 最 常 使 用 的 编码 类 型 。 它 以 因子 的 一 层 作 为 参考 层 ， 并 将 其 他 因子 与 参 
考 层 进行 对 比 。 


同义词 : 编码 处 理 
独 热 编码 (one hot encoder) 


机 器 学 习 领 域 中 常用 的 一 种 编码 。 它 保留 了 所 有 的 因子 层 。 虽 然 该 编码 适用 于 部 
分 机 器 学 习 算 法 ， 但 并 不 适用 于 多 元 线性 回归 。 
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偏差 编码 
在 编码 中 用 于 对 比 的 并 不 是 参考 层 ， 而 是 将 每 一 层 与 整体 均值 进行 对 比 。 


同义词 : 总 和 对 照 (sum contrasts) 编码 ” 





4.4.1 虚拟 变量 的 表示 
在 美国 金 县 房屋 数据 中 ， 有 一 个 因子 变量 表示 房屋 的 所 有 权 类 型 。 下 面 列 出 了 数据 集中 一 
个 由 六 条 记录 组 成 的 小 子 集 。 


head(house[, 'PropertyType']) 
Source: local data frame [6 x 1] 

















PropertyType 
(fctr) 

1 Multiplex 
2 Single Family 
3 Single Family 
4 Single Family 
5 Single Family 
6 Townhouse 


在 该 例 中 ， 因 子 变量 的 可 能 取 值 ( 即 “ 层 ”) 有 3 个 ， 即 Multiplex、Single Family 和 
Townhouse。 如 果 要 使 用 该 因子 变量 ， 需 要 将 其 转换 为 一 个 二 元 变量 集合 。 我 们 的 做 法 是 将 
因子 变量 的 每 个 可 能 取 值 转换 为 一 个 二 元 变量 。 这 可 以 使 用 R 提供 的 model.matrix 函数 
实现 “。 














prop_type_dummies <- model.matrix(~PropertyType -1, data=house) 
head(prop_type_dummies) 
PropertyTypeMultiplex PropertyTypeSingle Family PropertyTypeTownhouse 


1 1 0 0 
2 0 1 0 
3 0 1 0 
4 0 1 0 
5 0 1 0 
6 0 0 1 


函数 model.matrix 将 R 的 data.frame 对 象 转换 为 一 个 适用 于 线性 模型 的 矩阵 对 象 。 因 子 
变量 PropertyType 具有 三 个 不 同 的 值 ， 因 此 表示 为 一 个 具有 三 列 的 矩阵 。 这 种 表示 在 机 器 
学 习 领 域 被 称 为 独 热 编码 (参见 6.1.3 节 )。 在 一 些 机 器 学 习 算法 中 ， 例 如 近邻 算法 和 树 模 
型 中 ， 独 热 编码 是 因子 变量 的 标准 表示 方式 (参见 6.2 节 )。 


在 回归 中 ,一 个 具有 P 个 层 的 因子 变量 ， 通 常会 使 用 一 个 只 有 P-1 列 的 矩阵 表示 。 这 是 因 









































注 3: 该 编码 是 一 种 对 照 编 双 。 采 用 这 种 编码 的 回归 方程 其 回归 系数 之 和 为 0， 因此 得 名 “sum contrasts”。 

一 一 详 者 注 

注 4: nodel.natrix 函数 中 的 -1 参数 生成 了 独 热 编码 表示 。 因 为 要 移 除 截 距 ， 所 以 是 “-"。 否 则 ，R 默认 
会 生成 一 个 具有 P-1 列 的 矩阵 ， 其 中 使 用 首 个 因子 层 作为 参考 层 。 






















































































为 回归 模型 中 通常 包括 一 个 截 距 项 。 因 此 ,一旦 已 经 定义 了 P-1 个 二 元 值 ， 那 么 由 于 截 距 
项 的 存在 ， 第 P 个 值 就 是 已 知 的 ， 可 以 看 成 是 元 余 的 。 如 果 添 加 了 第 P 个 列 ， 将 导致 多 重 
共 线 性 错误 (参见 4.5.2 节 )。 

R 默认 使 用 首 个 因子 层 作 为 参考 ， 并 相对 于 该 层 去 解释 其 余 的 层 。 


lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
+ Bedrooms + BldgGrade + PropertyType, data=house) 


























Call: 
lm(formula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
Bedrooms + BldgGrade + PropertyType, data = house) 


Coefficients: 
(Intercept) SqFtTotLiving 
-4.469e+05 2.234e+02 
SqFtLot Bathrooms 
-7.041e-02 -1.597e+04 
Bedrooms BldgGrade 
-5.090e+04 1.094e+05 
PropertyTypeSingle Family PropertyTypeTownhouse 
-8.469e+04 -1.151e+05 








R 回归 的 输出 给 出 了 两 个 回归 系数 , 分 别 对 应 于 PropertyTypeSingleFamily 和 PropertyType- 
Townhouse。 输 出 中 并 没有 对 应 于 Mutliplex 层 的 回归 系数 。 这 是 因为 当 PropertyTypeSingle- 
Family == 0 和 PropertyTypeTownhouse == 0 时 ， 已 经 隐 式 地 定义 了 Mutliplex 层 。 回 归 系 
数 的 解释 是 相对 于 Mutliplex 这 一 因子 层 的 。 因 此 ，Single Family 房屋 的 价值 低 了 将 近 
85 000 美元 ， 而 Townhouse 房屋 的 价值 低 了 150 000 多 美元 。 


各 种 因子 编码 

存在 多 种 不 同 的 因子 变量 编码 方法 ， 它 们 统称 为 对 照 编码 (contrasting coding) 
系统 。 例 如 ， 偏 差 编 码 就 是 一 种 对 照 编 码 方式 ， 也 称 为 总 和 对 照 编码 ， 它 将 
每 一 层 与 整体 均值 做 对 比 。 多 项 式 编码 (polynomial coding) 是 另 一 种 对 照 
编码 方式 ， 适 用 于 有 序 因 子 ， 参 见 4.4.3 节 。 除 非 是 对 于 有 序 因 子 ， 否 则 数 
据 科 学 家 一 般 只 会 用 到 参考 编码 或 独 热 编码 。 


4.4.2 ”多 层 因 子 变量 

一 些 因 子 变量 会 生成 大 量 的 二 元 虚拟 编码 一 一 邮政 编码 是 一 个 因子 变量 ， 而 美国 有 4.3 万 
个 邮政 编码 。 在 这 种 情况 下 ， 我 们 可 以 通过 探索 数据 了 解 预测 变量 与 结果 之 间 的 关系 ， 进 
而 确定 分 类 中 是 否 包 含 了 有 用 的 信息 。 如 果 包 含 ， 那 么 我 们 必须 进一步 决定 保留 所 有 的 因 
子 是 否 有 用 ,或 者 是 否 应 该 合并 一 些 因子 层 。 

例如 ， 在 金 县 ，82 个 邮政 编码 区 域 有 房屋 销售 数据 。 
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注 5: 这 种 做 法 并 不 直观 ， 但 是 我 们 可 以 使 用 Location 变量 作为 混淆 变量 ， 
参见 4.5.3 节 。 
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table(house$ZzipCode) 


9800 89118 98001 98002 98003 98004 98005 98006 98007 98008 98010 98011 
1 1 358 180 241 293 133 460 112 291 56 163 
98014 98019 98022 98023 98024 98027 98028 98029 98030 98031 98032 98033 
85 242 188 455 31 366 252 4715 263 308 121 517 
98034 98038 98039 98040 98042 98043 98045 98047 98050 98051 98052 98053 
575 788 47 244 641 1 222 48 7 32 614 499 
98055 98056 98057 98058 98059 98065 98068 98070 98072 98074 98075 98077 
332 402 4 420 513 430 1 89 245 502 388 204 
98092 98102 98103 98105 98106 98107 98108 98109 98112 98113 98115 98116 
289 106 671 313 361 296 155 149 357 1 620 364 
98117 98118 98119 98122 98125 98126 98133 98136 98144 98146 98148 98155 
619 492 260 380 409 473 465 310 332 287 40 358 
98166 98168 98177 98178 98188 98198 98199 98224 98288 98354 
193 332 216 266 101 225 393 3 4 9 


ZipCode 是 一 个 重要 的 变量 ， 它 代表 了 地 段 对 房价 的 影响 。 如 果 要 包括 所 有 的 层 ， 那 么 
需要 81 个 回归 系数 ， 对 应 于 81 个 自由 度 。 而 原始 模型 house_tm 只 有 5 个 自由 度 ， 参 见 
4.2.2 市 。 而 且 我 们 发 现在 部 分 邮政 编码 区 域 中 ， 只 有 一 个 房屋 销售 数据 。 在 一 些 问 题 中 ， 
鉴于 邮政 编码 的 前 两 位 或 前 三 位 对 应 于 次 级 地 理 区 域 ， 我 们 可 以 使 用 前 几 位 数字 整合 邮政 
编码 区 域 。 但 是 对 于 金 县 而 言 ， 几 乎 所 有 的 销售 都 发 生 在 邮政 编码 “980XX ”或 “98LXX 
的 区 域 中 ， 所 以 这 种 方法 并 不 适用 。 


另 一 种 方法 是 根据 其 他 变量 (例如 销售 价格 ) 的 情况 对 邮政 编码 进行 分 组 。 更 好 的 做 法 是 
使 用 初始 模型 的 残 差 来 构建 邮政 编码 组 。 下 面 的 dplyr 代码 基于 house_ln 回归 残 差 的 中 位 
数 ， 将 82 个 邮政 编码 整合 为 5 个 组 。 
zip_groups <- house %>% 
mutate(resid = residuaLs(house_Lm) ) %>% 
group_by(ZipCode) %>% 
summarize(med_resid = median(resid), 
Cnt = n()) %>% 
arrange(med_resid) %>% 
mutate(Cum_cnt = cumsum(cnt), 
ZipGroup = ntile(cum_cnt, 5)) 
house <- house %>% 
left_join(select(zip_groups, ZipCode, ZipGroup), by='ZipCode') 


代码 计算 每 个 邮政 编码 的 中 位 数 残 差 ， 并 使 用 ntile 函数 按 中 位 数 排序 ， 将 邮政 编码 划分 
为 5 个 组 。4.5.3 节 中 的 例子 展示 了 如 何在 回归 中 使 用 这 样 转换 的 因子 变量 作为 数据 项 ， 实 
现 对 初始 拟 合 情 况 的 改进 。 


使 用 残 差 帮助 指导 回归 拟 合 的 理念 ， 是 建 模 过 程 中 的 一 个 基础 步 最， 参见 4.6 市 。 


4.4.3 ”有 序 因 子 变量 

一 些 因 子 变量 体现 出 了 因子 的 层级 ， 被 称 为 有 序 因 子 变 量 或 有 序 分 类 变量 。 例 如 ， 贷 款 等 
级 包括 A、B、C 等 ， i 
数值 ， 并 当 作 数值 使 用 。 例 如 ， 变 量 BldgGrade 就 是 一 个 有 序 因 子 
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变量 所 代表 的 部 分 等 级 类 型 。 鉴 于 每 个 等 级 都 具有 特定 的 意义 ， 因 此 数值 是 从 低 到 高 排序 
的 ， 对 应 于 房屋 等 级 的 逐步 提高 。 如 果 使 用 4.2 节 中 拟 合 的 回归 模型 house_tm， 我 们 需要 
将 BldgGrade 作为 数值 型 变量 处 理 。 


表 4-1: 一 个 典型 的 数据 格式 


























数值 描述 

1 Cabin 

2 Substandard 
5 Fair 

10 Very good 
12 Luxury 

13 Mansion 











将 有 序 因 子 作为 数值 变量 处 理 ， 可 以 保留 次 序 关系 中 所 包含 的 信息 。 否 则 ， 这 些 信息 将 在 
转换 为 因子 的 过 程 中 丢失 。 








本 节 要 点 
。 因子 变量 需要 转换 为 数值 变量 ， 才 能 在 回归 中 使 用 。 
。 要 编码 一 个 具有 已 个 不 同 值 的 因子 变量 ， 最 常用 的 方法 是 表示 为 P-1 个 虚拟 变量 。 
。 即便 是 在 规模 非常 大 的 数据 集中 ， 多 层 因子 变量 也 需 整 合 为 具有 更 少 层 的 变量 。 
。 一 些 因子 的 层 是 有 序 的 ， 可 以 表示 为 单一 的 数值 变量 。 











4.5 解释 回归 方程 


在 数据 科学 中 ， ss 量 (结果 变量 )。 但 是 在 某 些 情况 下 ， 从 
回归 方程 本 身 获 得 一 些 洞 见 ， 以 理解 预测 变量 与 结果 之 间 的 关系 是 十 分 有 价值 的 。 本 节 将 
为 如 何 查 看 并 解释 回归 方程 提供 一 些 指 导 



































主要 术语 
相关 变量 
当 预 测 变 量 高 度 相 关 时 ， 难 以 解释 单个 回归 系数 。 
多 重 共 线性 
当 预 测 变 量 间 存在 完美 的 或 近乎 完美 的 相关 性 时 ， 回 归 是 不 稳定 的 ， 或 者 说 是 不 
可 能 计算 的 。 
同义词 : 共 线 性 
混淆 变 
过 岗 记 齐 攻 量 。 急 视 该 变量 可 导致 回归 方程 给 出 伪 关 系 。 
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主 效应 


交互 作用 





预测 变量 和 结果 变量 之 间 的 关系 ， 该 关系 独立 于 其 他 的 变量 。 


两 个 或 两 个 以 上 预测 变量 和 响应 之 间 的 相互 依赖 关系 。 





4.5.1 变量 
在 多 元 回归 中 ， 预 测 变量 通常 是 相互 关联 的 。 例 如 ， 下 面 查看 一 下 4.2.4 节 中 拟 合 的 step_ 


ln 模型 的 回归 系数 。 


step_lm$coefficients 
(Intercept) 
6.227632e+06 
Bathrooms 
4.472172e+04 
BLdgarade 
1.391792e+05 
PropertyTypeTownhouse 
9.221625e+04 
YrBuilt 
-3.592468e+03 


SqFtTotLiving 
1.865012e+02 

Bedrooms 

-4.980718e+04 
PropertyTypeSingle Family 
2.332869e+04 
SqFtFinBasement 
9.039911e+00 


我 们 看 到 ，Bedrooms 的 回归 系数 竟然 是 负 值 。 这 意味 着 在 房子 中 增加 一 间 卧 室 ， 反 而 会 降 
低 房屋 的 价值 。 为 什么 会 发 生 这 种 情况 ?这 是 因为 预测 变量 是 相互 关联 的 。 面 积 大 的 房子 
一 般 有 更 多 的 卧室 ， 而 房屋 的 价值 受 面积 大 小 的 影响 ， 而 非 卧 室 的 数量 。 对 于 两 个 面积 相 
同 的 房子 ， 我 们 更 喜欢 的 通常 不 是 卧室 更 多 但 面积 更 小 的 那个 。 





如 果 预 测 变 量 是 相互 关联 的 , 飞 









































Bb 么 回归 系数 的 符号 和 值 会 难以 解释 (并且 会 提高 估计 量 的 











标准 误差 )。 卧 室 、 房 屋面 积 和 卫生 间 数 量 等 变量 就 是 相关 的 。 下 面 的 例子 展示 了 这 一 关 


联 。 我 们 在 回归 方程 中 移 除了 
了 另 一 个 回归 。 

















SqFtTotLiving、SqFtFinBasement 和 Bathrooms 变量 ， 拟 合 


update(step_Lm，. ~ . -SqFtTotLiving - SqFtFinBasement - Bathrooms) 


Call: 
Lm(formuLa = AdjSalePrice 


~ Bedrooms + BldgGrade + PropertyType + 


YrBuilt, data = house0, na.action = na.omit) 


Coefficients: 
(Intercept) 
4834680 
BldgGrade 
245709 
PropertyTypeTownhouse 
-47477 





Bedrooms 

27657 

PropertyTypeSingle Family 
-17604 

YrBuilt 

-3161 











在 上 面 的 代码 中 ，update 函数 月 
的 回归 系数 为 正 了 ， 这 符合 我 人 








明 于 为 模型 添加 或 移 除 变量 。 从 输出 中 可 以 看 到 ， 现 在 卧室 
] 的 预期 (但 既然 这 些 变量 已 被 移 除 ， 它 实际 上 是 房屋 面积 
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相关 变量 只 是 回归 系数 解释 中 可 能 磁 到 的 问题 之 一 。 在 house_tn 模型 中 ， 并 没有 变量 表示 
房屋 的 地 段 信息 ， 而 且 模型 将 不 同类 型 的 地 段 混淆 在 一 起 。 这 样 ， 地 段 变量 可 能 会 成 为 一 
个 混淆 变量 。 关 于 混 清 变 量 的 更 多 内 容 ， 参 见 4.5.3 节 。 


4.5.2 多重 共 线性 

相关 变量 的 一 种 极端 情况 就 是 在 预测 变量 间 存 在 元 余 ， 这 被 称 为 多 重 共 线性 问题 。 如 果 一 
个 预测 变量 可 以 表示 为 其 他 变量 的 一 种 线性 组 合 ， 就 产生 了 完美 的 多 重 共 线 性 问题 。 产 生 
多 重 共 线 性 的 情况 有 下 面 几 种 。 

。 在 误差 中 多 次 包含 同一 个 变量 。 

。 从 一 个 因子 变量 创建 了 PP 个 虚拟 变量 ， 而 非 P-1 个 虚拟 变量 ( 
。 两 个 变量 近 平 完美 相关 。 

回归 中 的 多 重 共 线 性 问题 必须 解决 掉 。 具 体 做 法 是 依次 移 除 变量 ， 直 至 去 除了 多 重 共 线 性 
问题 。 如 果 存 在 完成 的 多 重 共 线性 ， 那 么 表明 回归 并 没有 定义 良好 的 解决 方案 。 包 括 有 在 
内 的 很 多 软件 包 ， 都 会 自动 处 理 某 些 类 型 的 多 重 共 线性 。 例 如 ， 在 金 县 房屋 数据 house 的 
回归 中 ， 两 次 包括 了 SqFtTotLiving 变量 ， 得 到 的 结果 与 house_ln 模型 给 出 的 一 样 。 对 于 
非 完 美的 多 重 共 线性 ， 统 计 软 件 也 许 能 提供 一 个 解决 方案 ， 但 这 样 的 结果 可 能 不 稳定 。 

对 于 树 模型 、 聚 类 和 最 近邻 等 非 回归 方法 ， 多 重 共 线性 可 能 并 不 会 构成 问 
题 。 在 这 些 非 回归 方法 中 ， 可 能 会 建议 保留 P 个 虚拟 变量 ， 而 非 P-1 个 。 这 
就 是 说 ， 即 便 是 在 这 些 方法 中 ， 非 宛 余 的 预测 变量 可 能 依然 是 个 优点 。 




















WS 


见 4.4 节 )。 
























































4.5.3 混淆 变量 

对 于 相关 变量 ， 问 题 在 于 “委任 "”， 即 回归 方程 中 包括 了 多 个 与 响应 变量 具有 相似 预测 关 
系 的 变量 。 而 对 于 混 浠 变量， 问题 在 于 “遗漏 ” ， 即 回归 方程 中 未 能 包括 某 个 重要 的 变量 。 
对 回归 方程 相关 系数 的 朴素 解释 ， 可 能 会 得 出 一 个 无 效 的 结论 。 


以 4.2.1 节 中 的 金具 回归 方程 house_ln 为 例 。 在 该 回归 方程 中 ，SqFtLot、Bathrooms 和 
Bedrooms 等 的 回归 系数 都 是 负 值 。 原 始 回归 模型 中 并 未 包含 表示 地 段 的 变量 ， 而 地 段 是 房 
屋 价格 的 一 个 重要 预测 变量 。 为 了 对 地 段 情 况 建 模 ， 我 们 加 入 了 变量 zipGroup。 该 变量 将 
邮政 编码 分 到 5 个 组 中 的 一 个 ， 从 房价 最 便宜 的 组 1 到 房价 最 贵 的 组 5°。 
lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + 
Bathrooms + Bedrooms + 


BldgGrade + PropertyType + ZipGroup, 
data=house, na.action=na.omit) 


























注 6: 金 县 房屋 数据 中 有 82 个 邮政 编码 ， 但 在 部 分 邮政 编码 区 域 中 ， 只 有 少量 的 房屋 销售 数据 。 另 一 种 方 
法 是 直接 使 用 邮政 编码 作为 一 个 因子 变量 ，zipGroup 将 相似 的 邮政 编码 聚 为 一 个 组 。 更 多 细节 ， 参 见 
4 和 .2 市 。 
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显然 


Coefficients: 
(Intercept) 
-6.709e+05 
SqFtLot 
4.692e-01 
Bedrooms 
-4.139e+04 
PropertyTypeSingle Family 
2.113e+04 
ZipGroup2 
5.169e+04 
ZipGroup4 
1.783e+05 


个 重要 的 


，ZipGroup 是 一 





= 
变量 。 


房屋 ， 其 预计 销售 价格 更 高 ， 接 近 34 万 美元 。SqFtLot 和 Bathrooms 的 系数 现在 是 正 值 


SqFtTotLiving 
2.112e+02 
Bathrooms 
5.537e+03 
BldgGrade 
9.893e+04 

PropertyTypeTownhouse 
-7.741e+04 

ZipGroup3 

1.142e+05 

ZipGroup5 

3.391e+05 


从 输出 中 可 以 看 到 ， 对 于 房价 最 高 的 邮政 编码 组 中 的 


增加 一 间 浴 室 会 将 房屋 售 价 提高 近 7500 美元 。 


Bedrooms 的 系数 依然 为 负 值 。 
对 于 居住 


4.5.4 


统计 学 家 喜欢 














尽管 这 不 直观 ， 却 是 房 岂 














’ 








也 产 行业 中 











区 分 主 效应 (或 





自 变 





面积 和 浴室 数目 相同 的 房子 ， 如 果 卧 室 更 多 、 


交互 作用 和 主 效应 


[= 


里 

















面积 更 小 ， 











) 和 主 效应 之 间 的 交互 作用 。 


的 一 个 众所周知 的 现象 。 
售 价 会 更 低 。 


归 方 程 





主 效应 一 般 指 回 





中 的 预测 变量 。 如 果 在 模型 中 只 使 用 主 效应 ， 那 么 一 个 隐 含 的 假设 就 是 ， 预 测 变量 与 响应 
变量 之 间 的 关系 是 与 其 他 预测 变量 无 关 的 。 该 假设 通常 并 不 成 立 。 





例如 ， 对 于 4.5.3 节 中 使 用 金 县 房屋 数据 所 拟 合 的 模 
地 段 在 房地产 行业 是 决定 一 切 的 因素 。 很 自然 ， 
之 间 的 关系 是 依赖 于 地 段 的 。 在 低 租 金地 段 建造 的 大 
段 上 建造 的 大 面积 房屋 。 在 R 中 ， 可 以 使 用 * 操作 符 添 加 变量 间 的 交互 作用 。 下 
使 用 金 县 房屋 数据 拟 合 了 SqFtTotLiving 和 ZipGroup 间 的 交互 作用 。 


二 哆 
变量 。 





lm(AdjSalePrice ~ 





型 ， 其 中 的 主 
我 们 可 以 




















SqFtTotLiving*ZipGroup + SqFtLot + 


Bathrooms + Bedrooms + BldgGrade + PropertyType， 
data=house, na.action=na.omit) 


硬 积 房屋 ， 寺 


效应 包括 ZipCode 等 多 个 
段 定 房 屋面 积 和 销售 价格 
其 售 价 将 不 同 于 在 昂贵 地 
而 的 代码 




















Coefficients: 
(Intercept) SqFtTotLiving 
-4.919e+05 1.176e+02 
ZipGroup2 ZipGroup3 
-1.342e+04 2.254e+04 
ZipGroup4 ZipGroup5 
1.776e+04 -1.555e+05 
SqFtLot Bathrooms 
7.176e-01 -5.130e+03 
Bedrooms BLdgarade 
-4.181e+04 1.053e+05 
PropertyTypeSingle Family PropertyTypeTownhouse 
1.603e+04 -5.629e+04 
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SqFtTotLiving:ZipGroup2 SqFtTotLiving:ZipGroup3 


3.165e+01 3.893e+01 
SqFtTotLiving:ZipGroup4 SqFtTotLiving:ZipGroup5 
7.051e+01 2.298e+02 


在 生成 的 模型 中 具有 4 个 新 项 ， 即 SqFtTotLiving:ZipGroup2、SqFtTotLiving:ZipGroup3 等 。 


我 们 可 以 看 到 ， 地 段 变 量 和 房屋 估价 之 间 具 有 很 强 的 交互 作用 。 沙 在 房价 最 低 zipGroup 中 
的 房屋 ， 其 斜率 与 主 效应 SqFtTotLiving 的 斜率 相同 ， 都 是 每 平方 英尺 177 美元 。 这 是 由 
于 及 对 因子 变量 使 用 了 参考 编码 ， 参 见 4.4 节 。 位 于 房价 最 高 zipGroup 中 的 房屋 ， 其 斜率 
是 主 效应 加 上 SqFtTotLiving:ZipGroup5， 即 177 + 230 = 447 美元 /平方 英尺 。 换 名 话说 ， 
对 于 房价 最 贵 邮 政 编 码 组 中 的 房屋 ， 房 屋面 积 每 增加 一 平方 英尺 ， 预 测 售 价 的 提高 量 将 是 
房价 最 低 邮 政 编 码 组 的 2.7 倍 左右 。 


具有 交互 项 的 模型 选择 

对 于 涉及 多 变量 的 问题 ， 确 定 模 型 中 应 包含 哪些 交互 项 是 一 个 挑战 性 的 问 
题 。 通 常 采取 的 方法 有 以 下 儿 种 。 

。 对 于 某 些 问题 ， 可 以 使 用 先 验 知识 和 直觉 ， 指 导 模 型 中 应 包含 哪些 交互 项 。 
。 使 用 逐步 选择 法 (参见 4.2.4 节 )， 筛 选 各 种 模型 。 
。 使 用 惩罚 回归 自动 拟 合 大 量 可 能 的 交互 项 。 
。 也许 最 常用 的 方法 是 树 模型 ， 以 及 其 衍生 的 随机 森林 和 梯度 提升 树 。 这 类 
模型 能 自动 搜索 最 佳 的 交互 项 ， 参 见 6.2 节 。 













































































本 节 要 点 
。 考虑 到 预测 因子 之 间 的 相关 性 ， 在 多 元 线性 回归 中 ， 必 须 注 意 如 何 解释 回归 系数 。 
。 多 重 共 线性 可 能 导致 拟 合 回归 方程 中 存在 数值 不 稳定 的 问题 。 
。 混 消 变 量 是 指 在 模型 中 遗漏 的 重要 预测 因子 , 它 可 以 导致 存在 虚假 关系 的 回归 方程 。 
。 如 果 变 量 和 响应 之 间 存 在 相互 依赖 的 关系 , 那么 需要 在 两 个 变量 间 添 加 一 个 交互 项 。 











4.6 ”检验 假设 回归 诊断 


我 们 在 研究 中 做 探索 性 建 模 时 ， 除 了 评估 上 面 介绍 的 各 个 指标 (参见 4.2.2 节 ) 之 外 ， 还 
要 采取 多 个 步骤 去 评估 模型 与 数据 的 拟 合 度 。 这 些 步骤 大 多 基于 残 差分 析 ， 因 为 对 残 差 的 
分 析 可 以 检验 模型 所 基于 的 假设 。 这 些 步 又 并 不 直接 解决 预测 的 准确 性 问题 ， 但 是 它们 可 
以 为 预测 提供 一 些 有 用 的 见解 。 
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主要 术语 

标准 残 差 

残 差 除 以 残 差 的 标准 误差 。 
离 群 值 

距离 其 他 记录 (或 预测 结果 ) 很 远 的 记录 (或 结果 值 ) 。 
强 影 响 值 (influential value ) 

一 个 值 或 记录 ， 其 存在 与 否 会 使 回归 方程 有 很 大 差异 。 
杠杆 

单个 记录 对 回归 方程 的 影响 程度 。 

同义词 : 帆 值 (hat-value) 


非 正 态 残 差 
非 正 态 分 布 的 残 差 可 能 会 导致 一 些 对 回归 的 技术 需求 失效 。 但 在 数据 科学 中 ， 通 
常 并 不 会 关注 该 问题 。 

异 方 差 性 
在 输出 的 部 分 范围 中 具有 较 高 变异 性 的 残 差 。 这 可 能 表明 在 回归 方程 中 缺失 了 某 
个 预测 变量 。 

偏 残 差 图 
展示 结果 变量 和 单个 预测 变量 之 间 关 系 的 一 种 诊断 图 。 


同义词 : 变量 添加 图 (added variable plot) 











4.6.1 离 群 值 

一 般 来 说 ， 极 端的 值 会 远离 其 他 大 部 分 观测 值 ， 我 们 称 其 为 离 群 值 。 正 如 在 估计 位 置 和 变 
异性 时 需要 对 异常 值 做 一 些 处 理 (参见 1.3 节 和 1.4 节 )， 离 群 值 可 能 会 导致 回归 模型 出 现 
问题 。 在 回归 中 ， 离 群 值 的 真实 值 会 极 大 地 偏离 预测 值 。 通 过 查看 标准 残 差 ， 就 可 以 检测 
离 群 值 。 标 准 残 差 等 于 残 差 除 以 残 差 的 标准 误差 。 


并 没有 统计 学 理论 说 明和 如何 从 非 离 群 值 中 分 离 出 离 群 值 。 人 们 通常 采用 一 种 独断 的 经 验 法 

则 ， 即 确定 一 个 观察 值 与 大 部 分 数据 偏离 多 远 才能 称 为 离 群 值 。 例 如 ， 在 使 用 箱 线 图 时 ， 

离 群 值 是 距离 箱子 边界 上 下 过 远 的 数据 点 (参见 1.5.1 节 )。 这 里 的 “过 远 ” 指 的 是 “超出 

1.5 倍 四 分 位 数 间 距 ”。 在 回归 中 ， 通常 使 用 标准 残 差 作为 确定 一 个 记录 是 否 应 归 类 为 离 群 

值 的 度量 。 标 准 残 差 可 以 解释 为 “距离 回归 线 的 标准 误差 倍数 ”。 

下 面 ， 我 们 使 用 邮政 编码 98105 区 域 的 所 有 金 县 房屋 销售 数据 拟 合 一 个 回归 模型 。 
house_98105 <- house[house$ZipCode == 98105,] 


lm_98105 <- lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
Bedrooms + BldgGrade, data=house _98105) 






































































































































我 们 使 用 rstandard 函数 抽取 出 标准 残 差 ， 并 使 用 order 函数 获得 最 小 残 差 。 


sresid <- rstandard(lm 98105) 
idx <- order(sresid) 
sresid[idx[1]] 

20431 
-4.326732 


在 模型 中 ， 最 大 的 过 估计 超出 回归 线 之 上 四 个 标准 误差 ， 对 应 的 过 估计 值 是 757 753 美 
元 。 与 该 离 群 值 对 应 的 原始 数据 记录 如 下 : 


house_98105[idx[1], c('AdjSalePrice', 'SqFtTotLiving', 'SqFtLot', 
'Bathrooms', 'Bedrooms', 'BldgGrade')] 























AdjSalePrice SqFtTotLiving SqFtLot Bathrooms Bedrooms BldgGrade 
(db1) (int) (int) (db1) (int) (int) 
1 119748 2900 7276 3 6 7 


在 本 例 中 ， 记 录 看 上 去 存在 一 些 问题 。 在 该 邮政 编码 区 域 中 ， 类 似 面积 的 房子 一 般 售 价 远 
高 于 119 748 美元 。 图 4-4 展示 了 本 次 售 房 法 定 契 约 的 部 分 摘录 。 从 图 中 可 以 看 到 ， 此 次 
销售 只 涉及 部 分 产权 。 因 此 ， 该 离 群 值 对 应 于 一 次 异常 的 销售 ， 不 应 该 将 该 次 销售 包括 在 
回归 中 。 离 群 值 也 可 能 是 由 其 他 问题 导致 的 ， 例 如 手工 输入 数据 时 出 现 了 错误 〈 即 “ 胖 手 
指 ” 问 题 )， 或 是 单位 不 匹配 ， 比 如 销售 报告 中 的 单位 应 是 千 美元 ， 而 非 美元 。 
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图 4-4: 具有 最 大 负 残 差 的 售 房 记录 对 应 的 契约 法 定 担保 文书 


在 大 数据 问题 中 ， 对 于 拟 合 一 个 用 于 预测 新 数据 的 回归 模型 ， 通 常 离 群 值 并 不 会 构成 问 
题 。 但 是 ， 离 群 值 是 异常 检测 所 关注 的 核心 问题 。 异 常 检测 就 是 要 找 出 数据 中 的 离 群 值 。 
离 群 值 也 可 能 对 应 于 一 次 欺诈 ， 或 是 一 个 意外 操作 。 在 任何 情况 下 ， 检 测 离 群 值 都 可 能 是 
关键 的 业务 需求 。 


4.6.2” 强 影响 值 


如 果 某 个 值 的 缺失 会 显著 地 改变 回归 方程 ， 那 么 该 值 就 是 一 个 强 影响 观测 值 。 在 回归 中 ， 
不 需要 将 这 样 的 值 关 联 到 大 的 残 差 。 以 图 4-5 的 回归 线 为 例 。 图 中 的 实 线 对 应 于 全 部 数据 
的 回归 ， 虚 线 对 应 于 移 除了 右上 方 的 数据 点 后 的 回归 。 很 显然 ， 对 于 使 用 所 有 数据 的 回归 
而 言 ， 尽 管 移 除 的 数据 点 与 大 的 离 群 点 毫 无 关联 ， 但 是 它 对 回归 有 很 大 的 影响 。 我 们 称 这 
样 的 数据 点 在 回归 中 具有 高 杠杆 。 
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图 4-5: 回归 中 的 强 影响 数据 点 案例 


为 了 确定 单个 记录 对 回归 的 影响 ， 除 了 标准 残 差 (参见 4.6.1 节 ) 之 外 ， 统 计 学 家 还 提出 
了 多 个 度量 。 其 中 ， 帐 值 是 对 征 杆 的 一 个 常用 度量 。 如 果 帽 值 高 于 2(P + 1) /mn， 表 明 存 在 
一 个 高 杠杆 的 数据 值 。 


另 一 个 度量 是 库 克 距离 (Cook's distance) ， 它 通过 组 合 杠 杆 和 残 差 规模 ， 定 义 了 对 回归 的 
影响 情况 。 经 验 法 则 指出 ， 如 果 库 克 距 离 大 于 4/(n-P-1)， 那 么 观测 值 具有 很 大 的 影响 。 


影响 图 ， 也 被 称 为 气泡 图 ， 在 单个 绘图 中 展示 了 标准 残 差 、 帽 值 和 库 克 距离 。 图 4-6 显示 
了 人 金 县 房屋 数据 的 影响 图 ， 它 是 使 用 下 面 的 R 代码 生成 的 。 

std_resid <- rstandard(lm 98105) 

cooks_D <- cooks.distance(lm 98105) 

hat_values <- hatvalues(lm 98105) 

plot(hat_values, std_resid, cex=10*sqrt(cooks_D)) 

abline(h=c(-2.5, 2.5), lty=2) 


很 明显 ， 在 回归 中 有 多 个 数据 点 表现 出 了 强 影响 。 可 以 使 用 cooks.distance 函数 计算 库 克 
距离 ， 使 用 hatvalues 函数 计算 诊断 信息 。 在 图 4-6 中 ,x 轴 表 示 帽 值 ，” 轴 表 示 残 差 ， 数 
据点 的 大 小 与 库 克 距离 相关 。 
















































































注 7:“ 帽 值 ”一 词 来 自 回 归 中 的 帽子 矩阵 概念 。 多 元 线性 回归 可 以 表示 为 公式 六 = HY, 其 中 五 是 帽子 矩阵 。 
帽 值 对 应 于 和 矩阵 五 的 对 角 线 。 
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图 4-6: 确定 有 最 大 影响 的 观测 点 的 绘图 


表 4-2 比较 了 回归 与 整个 数据 集 ， 其 中 移 除 了 强 影响 数据 点 。 从 表 中 可 以 看 到 ，Bathrooms 
回归 系数 的 变化 很 大 *。 


表 4-2: 使 用 全 部 数据 以 及 移 除 强 影响 数据 后 ， 回 归 系 数 的 对 比 情况 











原始 数据 移 除 强 影响 数据 后 
截 距 -772 550 -647 137 
SqFtTotLiving 210 230 
SqFtLot 39 33 
Bathrooms 2282 -16 132 
Bedrooms —26 320 —22 888 
BldgGrade 130 000 114 871 


如 果 和 希望 拟 合 的 回归 能 可 靠 地 预测 未 来 的 数据 ， 那 么 识别 强 影响 观测 值 只 对 小 规模 数据 集 
有 用 。 对 于 涉及 大 量 记录 的 回归 ， 单 个 观测 值 并 不 足以 对 拟 合 函数 产生 极端 的 影响 (尽管 回 
归 可 能 依然 有 很 大 的 离 群 值 )。 但 是 对 于 异常 检测 而 言 ， 识 别 强 影响 观测 值 是 十 分 有 用 的 。 


4.6.3” 异 方差 性 、 非 正 态 分 布 和 相关 误 
统计 学 家 十 分 关注 残 差 的 分 布 情况 。 普 通 最 小 二 乘法 (参见 4.1.3 节 ) 已 被 证 实 是 无 偏 的 ， 
并 且 在 一 些 情 况 下 ， 对 于 很 多 分 布 假设 来 说 是 一 种 最 优 的 估计 。 这 意味 着 ， 在 多 数 问 题 
























































注 8: Bathrooms 的 回归 系数 会 变 成 负 值 ， 这 是 不 直观 的 。 这 是 因为 回归 中 并 未 考虑 地 段 的 情况 ， 并 且 在 邮 
政 编码 98105 区 域 中 ， 还 包括 了 不 同类 型 的 房屋 。 对 混淆 变量 的 讨论 ， 参 见 4.5.3 节 。 
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中 ， 数 据 科学 家 无 须 过 于 关心 残 差 的 分 布 情况 。 

残 差分 布 主要 与 形式 统计 推断 的 有 效 性 ( 即 假 设 验 证 和 pp 值 ) 相关 ， 这 对 于 数据 科学 家 而 
言 是 无 关 紧 要 的 ， 因 为 数据 科学 家 主要 关心 的 是 准确 性 。 要 使 形式 推断 完全 有 效 ， 需 要 假 
定 残 差 符 合 正 态 分 布 ， 方 差 相 同 ， 并 且 是 独立 的 。 预 测 值 置信 区 间 的 标准 计算 方法 是 数据 
科学 家 可 能 会 关注 的 一 个 领域 ， 这 基于 对 残 差 的 假设 (参见 4.3.2 市 )。 

异 方差 性 指 在 整个 预测 值 范围 内 并 不 具有 一 个 恒定 的 残 差 变异 性 。 换 句 话 说， 在 整个 预测 
值 范围 内 ， 部 分 数据 的 误差 要 大 于 其 他 部 分 的 误差 。ggpltot2 软件 包 提供 了 一 些 分 析 残 差 
的 便利 工具 。 


下 面 的 代码 使 用 了 4.6.1 节 中 的 回归 拟 合 的 tm_98165 模型 ， 绘 制 了 残 差 绝对 值 与 预测 值 的 
对 比 情况 。 
df <- data.frame( 
resid = residuals(lm 98105), 
pred = predict(lm 98105)) 
ggplot(df, aes(pred, abs(resid))) + 
geom point() + 
geom_smooth() 


绘图 如 图 4-7 所 示 。 使 用 geom_smooth 函数 ， 很 容易 实现 残 差 绝 对 值 的 平滑 又 加 。 ws 


调用 了 Loess 方法 ， 对 散 点 图 中 x 轴 和 >》 轴 变 量 之 间 的 关系 生成 了 一 种 可 视 化 平滑 ( 参 
本 节 后 面 的 “ 散 点 图 平滑 ”)。 
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图 4-7: 残 差 绝对 值 和 预测 值 
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很 明显 ， 对 于 高 售 价 的 房屋 ， 残 差 的 方差 趋向 于 增 大 ， 但 是 对 于 低 售 价 的 房屋 ， 残 差 的 方 
差 也 趋向 于 增 大 。 绘 图 显示 ， 模 型 ln_98105 的 误差 具有 异 方差 性 。 

为 什么 数据 科学 家 要 关注 异 方差 性 ? 

异 方差 性 表明 在 不 同 的 预测 值 范围 内 ， 预 测 误差 存在 差异 ， 还 表明 模型 可 能 
并 不 完整 。 例 如 ， 模 型 ln_98165 的 异 方差 性 表明 ， 在 回归 中 可 能 并 未 统计 在 
高 售 价 范 围 和 低 售 价 范围 内 的 一 些 房屋 。 















































图 4-8 显示 了 模型 lm_98105 回归 标准 残 差 的 直方 图 。 其 分 布 比 正 态 分 布 具有 更 长 的 尾部 ， 
并 略 向 更 大 的 残 差 偏 斜 。 
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图 4-8: 金 县 房屋 数据 回归 残 差 的 直方 图 


统计 学 家 可 能 还 会 检验 误差 是 独立 的 这 一 假设 。 对 于 在 一 段 时间 内 采集 的 数据 ， 该 假设 尤 
为 正确 。Durbin-Watson 统计 量 可 用 于 检测 在 涉及 时 序数 据 的 回归 中 ， 是 否 存在 显著 的 自 
相关 。 

尽管 在 回归 中 可 能 会 违反 其 中 一 种 分 布 假设 ,但 是 数据 科学 家 为 什么 要 关心 这 个 问题 ?在 
数据 科学 中 ， 通 常 主要 关注 的 是 预测 的 准确 性 ， 因 此 审视 一 下 异 方差 性 可 能 会 有 所 帮助 。 
我 们 可 能 会 发 现 ， 数 据 中 有 些 信 号 未 被 模型 捕 狭 。 满 足 正 态 分 布 的 假设 ， 仅 是 为 了 验证 形 
式 统计 推断 人 值 、 忆 统计 量 等 )， 对 于 数据 科学 家 则 无 关 紧 要 。 
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散 点 图 平滑 

回归 就 是 建 模 响应 变量 和 预测 变量 之 间 的 关系 。 在 评估 一 个 回归 模型 时 ， 使 
用 散 点 图 平滑 以 可 视 化 方式 明确 两 个 变量 之 间 的 关系 是 有 用 的 。 

以 图 4-7 为 例 ， 对 绝对 残 差 和 预 负 值 之 间 关 系 的 平滑 ， 显 示 了 残 差 的 方差 依 
赖 于 残 差 的 值 。 在 平滑 中 ， 使 用 了 Loess 函数 。loess 函数 重复 地 对 邻近 子 
集 拟 合 出 一 系列 本 地 回归 ， 进 而 实现 平滑 。 尽 管 Loess 函数 可 能 是 最 广 为 使 
用 的 一 种 平滑 函数 ， 但 是 R 中 还 提供 了 其 他 一 些 散 点 图 平 请 函数 ， 例 如 超 平 
滑 (supsmu) 和 核 平滑 〈ksmooth)。 如 果 想 要 评估 一 个 回归 模型 ， 通 常 并 不 
需要 关心 这 些 散 点 图 平滑 的 工作 细节 。 





















































4.6.4 偏 残 差 图 和 非 线性 

偏 残 差 图 以 可 视 化 方式 展示 了 估计 的 拟 合 值 是 否 很 好 地 反映 了 预测 变量 和 输出 之 间 的 关 
系 。 偏 残 差 图 和 离 群 值 检 测 是 数据 科学 家 最 重要 的 诊断 手段 。 偏 残 差 图 的 基本 理念 是 ， 将 
预测 变量 与 响应 变量 间 的 关系 独立 出 来 ， 并 考虑 所 有 其 他 的 预测 变量 。 偏 残 差 可 以 看 成 一 
种 “合成 的 输出 值 ”， 其 中 组 合 了 基于 单个 预测 变量 的 预测 值 ， 以 及 来 自 完 全 回归 方程 的 
实际 残 差 。 预 测 变量 Y 的 偏 残 差 是 普通 残 差 加 上 与 马 关 联 的 回归 项 。 


偏 残 差 = 残 差 + bX 
其 中 ,6b 是 估计 的 回归 系数 。R 中 的 predict 函数 提供 了 返回 单个 回归 项 5X, 的 选项 。 


terms <- predict(lm 98105, type='terms') 
partial_resid <- resid(lm 98105) + terms 


偏 残 差 图 在 x 轴 上 显示 五 , 在 y 轴 上 显示 偏 残 差 。 使 用 ggptot2， 很 容易 实现 在 已 有 绘 
上 又 加 偏 残 差 的 平滑 绘图 ， 代 码 如 下 : 
df <- data.frame(SqFtTotLiving = house_98105[, 'SqFtTotLiving'], 
Terms = terms[, 'SqFtTotLiving'], 
PartialResid = partial_resid[, 'SqFtTotLiving']) 
ggplot(df, aes(SqFtTotLiving, PartialResid)) + 
geom_ point(shape=1) + scale_shape(solid = FALSE) + 
geom_smooth(linetype=2) + 
geom_line(aes(SqFtTotLiving, Terms)) 


绘图 结果 如 图 4-9 所 示 。 偏 残 差 是 对 SqFtTotLiving 添加 到 价格 中 的 贡献 的 估计 。 显 然 ， 
SqFtTotLiving 与 房屋 售 价 间 的 关系 是 非 线 性 的 。 回 归 线 低估 了 面积 小 于 1000 平方 英尺 的 
房屋 的 售 价 ， 高 估 了 面积 在 2000 到 3000 平方 英尺 的 房屋 的 售 价 。 鉴 于 房屋 面积 大 于 4000 
平方 英尺 的 数据 点 太 少 ， 因 此 难以 对 这 些 房屋 给 出 结论 。 
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4-9: 变量 SqFtTotLiving 的 偏 残 差 图 








在 本 例 中 ， 非 线性 是 有 意义 的 。 房 屋面 积 同样 增 大 500 平方 英尺 ， 小 型 房屋 的 售 价 会 比 大 
型 房屋 有 更 大 的 变化 。 这 表明 对 于 SqFtToLiving， 不 应 只 考虑 简单 的 线性 项 ， 还 应 考虑 一 
些 非 线性 项 (参见 4.7 市 )。 





本 节 要 点 

。 鉴于 离 群 值 可 能 会 在 小 规模 数据 集中 导致 问题 ， 关 注 离 群 值 主要 是 为 了 发 现 数据 中 
存在 的 问题 ， 或 是 确定 异常 所 在 。 

。 单个 记录 (包括 回归 离 群 值 ) 可 以 对 小 规模 数据 集 的 回归 方程 产生 很 大 的 影响 。 但 
是 在 大 数据 中 ， 这 种 效果 却 荡然 无 存 。 

。 如 果 将 回归 模型 用 于 形式 推断 (如 p 值 等 )， 那 么 应 该 检验 对 残 差分 布 的 一 些 假 设 。 
但 是 对 于 数据 科学 而 言 ， 残 差分 布 通常 无 关 紧 要 。 

。 偏 残 差 图 可 以 用 于 定性 地 评估 每 个 回归 项 的 拟 合 情况 ， 这 可 能 会 得 出 另 一 种 模型 声明 。 


4.7 多项式 回 归 和 样 条 回归 
响应 变量 和 预测 变量 之 间 的 关系 并 非 总 是 线性 的 。 例 如 ， 药 物 剂量 的 响应 变量 通常 就 不 是 


线性 的 : 剂量 加 倍 一 般 不 会 导致 响应 加 倍 。 产 品 需求 也 不 是 营销 投入 的 线性 方程 ， 因 为 需 
求 总 会 在 某 一 点 上 饱和 。 扩 展 回归 以 捕获 这 些 非 线性 效果 的 方法 有 多 种 。 
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主要 术语 
多 项 式 回归 
在 回归 方程 中 添加 了 多 项 式 项 ， 例 如 平方 项 、 三 次 方 项 等 。 
样 条 回归 
使 用 一 系列 多 项 式 片 段 去 拟 合 一 条 平滑 曲线 。 
结 点 
分 陪 样 条 片段 的 值 。 
广义 加 性 模型 
可 以 自动 选择 结 点 的 样 条 模型 。 
同义词 : GAM 
非 线 性 回归 


统计 学 家 所 说 的 非 线性 回归 ， 指 的 是 那些 不 能 使 用 最 小 二 乘法 拟 合 的 模型 。 
那么 ， 哪 些 类 型 的 模型 是 非 线 性 的 ? 从 本 质 上 讲 ， 所 有 响应 不 能 表示 为 预测 
变量 (或 预测 变量 的 某 种 转换 ) 的 线性 组 合 的 模型 ， 都 是 非 线 性 的 。 非 线性 
回归 模型 需要 做 数值 优化 ， 因 此 更 难以 拟 合 ， 计 算 的 强度 也 更 大 。 如 有 可 
能 ， 我 们 应 尽量 使 用 线性 模型 。 








4.7.1 多 项 式 回归 


多 项 式 回 归 涉 及 在 回归 方程 中 添加 多 项 式 项 。 多 项 式 回 归 的 使 用 可 以 追 湖 至 葛 尔 刚 
(Gergonne) 在 1815 年 的 论文 提出 了 回归 。 例 如 ， 响 应 变量 了 和 预测 变量 XX 间 的 三 项 式 回 
归 的 形式 如 下 。 























Y=b +bX+bX +e 


可 以 使 用 R 中 的 poly 函数 拟 合 多 项 式 回 归 。 例 如 ， 下面 的 代码 使 用 金 县 房屋 数据 ， 对 
SqFtTotLiving 拟 合 了 一 个 二 项 式 回归 。 











lm(AdjSalePrice ~ poly(SqFtTotLiving, 2) + SqFtLot + 
BldgGrade + Bathrooms + Bedrooms, 
data=house_98105) 


Call: 
lm(formula = AdjSalePrice ~ poly(SqFtTotLiving, 2) + SqFtLot + 
BldgGrade + Bathrooms + Bedrooms, data = house 98105) 


Coefficients: 
(Intercept) poly(SqFtTotLiving, 2)1 
-402530.47 3271519.49 
poly(SqFtTotLiving, 2)2 SqFtLot 
776934.02 32.56 








BldgGrade Bathrooms 
135717.06 -1435.12 
Bedrooms 

-9191.94 


这 里 SqFtTotLiving 关联 了 两 个 回归 系数 ， 一 个 用 于 线性 项 ， 另 一 个 用 于 平方 项 。 


图 4-10 显示 了 拟 合 的 偏 残 差 图 (参见 4.6.4 市 )。 图 中 表明 ， 在 关联 SqFtTotLiving 的 回归 方 
程 中 存在 一 个 曲率 。 相 比 于 线性 拟 合 ， 拟 合 线 更 接近 对 匹配 偏 残 差 的 平滑 (参见 4.7.2 节 )。 




















O 
O 〇 
O O 
1e+06 ] 
总 
@ 5e+05] 
a 
.5 
二 
[a] 
0 
0e+00] 
-5e+05 1| 
[© 











1000 2000 3000 4000 5000 
SqFtTotLiving 











图 4-10: 变量 SqFtTotLiving 的 多 项 式 回归 拟 合 ( 实 线 )， 以 及 与 平滑 (虚线 ， 参 见 4.7.2 节 中 对 样 
条 回归 的 介绍 ) 的 对 比 


4.7.2 样 条 回归 

多 项 式 回 归 只 捕获 了 非 线 性 关系 的 部 分 曲率 。 添 加 高 阶 项 (例如 三 次 方 项 )， 通 常会 导致 
回归 线 中 出 现 我 们 所 不 期 望 的 “摇摆 ”(wiggliness) 现象 。 还 有 一 种 方法 ， 通常 也 是 更 好 
的 做 法 ， 是 在 建 模 非 线性 关系 时 使 用 样 条 。 样 条 是 一 种 在 不 动 点 间 平 滑 插 值 的 方法 。 样 条 
最 初 是 手工 业者 在 绘制 平 清 曲 线 时 所 使 用 的 工具 ， 特 别 是 在 轮船 和 飞机 制造 中 。 

样 条 是 通过 使 用 重 物 [俗称 “鸭子 ”(ducks)] 弯曲 一 根 细 木 条 得 到 的 ， 如 图 4-11 所 示 。 




















回归 与 预测 | 129 











3 











图 4-11， 样 条 最 初 是 使 用 可 弯曲 的 木 条 和 “鸭子 ”构建 的 ， 它 是 手工 业者 拟 合 曲线 的 一 种 工具 。 
Bob Perry 摄 


从 技术 上 定义 ， 样 条 是 一 组 分 段 的 连续 多 项 式 。 样 条 函数 是 第 二 次 世界 大 战 期 间 ， 由 罗马 
尼 亚 数 学 家 艾 陕 克 ' 雅 各 布 " 勋 伯 格 在 美国 阿 伯 丁 试验 场 首次 提出 的 。 多 项 式 片 段 在 预测 
变量 中 的 一 组 不 动 点 处 平滑 地 连接 ， 这 些 不 动 点 被 称 为 结 点 。 相 比 于 多 项 式 回 归 ， 样 条 函 
数 的 计算 公式 要 复杂 得 多 。 样 条 函数 的 拟 合 细 市 通常 由 统计 软件 处 理 。R 的 splines 软件 
包 就 提供 了 bs 函数 ， 可 以 在 回归 模型 中 创建 一 个 b 样 条 项 。 例 如 ， 下 面 的 代码 在 金 县 房 
屋 回 归 模 型 中 添加 了 一 个 5 样 条 项 。 

library(splines) 

knots <- quantile(house 98105$SqFtTotLiving, p=c(.25, .5, .75)) 


lm_spline <- lm(AdjSalePrice ~ bs(SqFtTotLiving, knots=knots, degree=3) + 
SqFtLot + Bathrooms + Bedrooms + BldgGrade, data=house 98105) 


使 用 bs 函数 时 需要 指定 两 个 参数 ， 多项式 的 客 次 数 和 结 点 的 位 置 。 在 本 例 中 ， 添 加 到 模 
型 中 的 预测 变量 SqFtTotLiving 使 用 了 三 次 样 条 (degree=3)。 在 默认 情况 下 ，bs 函数 会 将 
结 点 置 于 各 个 边界 处 。 此 外 ， 结 点 也 可 置 于 下 四 分 位 数 、 中 四 分 位 数 和 上 四 分 位 数 等 处 。 
线性 项 的 回归 系数 具有 直接 的 意义 ， 但 样 条 项 的 系数 是 不 可 解释 的 。 以 可 视 化 方式 揭示 样 
条 拟 合 的 本 质 更 加 有 用 。 图 4-12 展示 了 回归 给 出 的 偏 残 差 图 。 相 比 于 多 项 式 模 型 ， 样 条 模 
型 更 近似 于 匹配 了 平滑 ， 这 表明 样 条 具有 更 大 的 灵活 性 。 在 本 例 中 ， 线 条 更 近乎 于 拟 合 了 
数据 。 这 是 否 意味 着 样 条 回归 是 一 种 更 好 的 模型 ? 不 一 定 。 在 本 例 中 ， 我 们 可 以 看 到 ， 面 
积 非常 小 的 房屋 〈 小 于 1000 平方 英尺 ) 的 售 价 将 比 面积 稍 大 的 房屋 更 高 ， 显 然 这 并 不 符 
合 经 济 规律 。 问 题 可 能 是 由 于 混淆 变量 导致 的 ， 参 见 4.5.3 市 。 






















































































O 
[©] 
O O 
1e+06 ] 
总 
出 5e+051 
a 
5 
二 
[a] 
0 
0e+00] 
_5e+05 1 
[© 








1000 2000 3000 4000 5000 
SqFtTotLiving 








图 4-12: 变量 SqFtTotLiving 的 样 条 回归 拟 合 ( 实 线 ) 与 平滑 (虚线 ) 的 对 比 


4.7.3 ”广义 加 性 模型 


假设 我 们 基于 先 验 知识 或 回归 诊断 ， 怀 疑 响应 变量 和 预测 变量 之 间 存 在 某 种 非 线 性 关系 。 
多 项 式 项 可 能 不 够 灵活 ， 无 法 捕获 这 种 非 线 性 关系 ， 而 样 条 项 则 需要 指定 各 个 结 点 。 广 义 
加 性 模型 (GAM) 是 一 种 自动 拟 合 样 条 回归 的 方法 。 可 使 用 R 的 gam 软件 包 ， 拟 合金 县 
房屋 数据 的 广义 加 性 模型 。 

library(mgcv) 

lm_gam <- gam(AdjSalePrice ~ s(SqFtTotLiving) + SqFtLot + 


Bathrooms + Bedrooms + BldgGrade, 
data=house_98105) 


其 中 ，s(SqFtTotLiving) 项 告诉 gam 国 数 为 样 条 项 找 出 “最 好 ”的 结 点 ， 如 图 4-13 所 示 。 





















































回归 与 预测 | 131 











1e+06 1 9 


5e+05 7 


PartialResid 





-5e+05 ] 











1000 2000 3000 4000 5000 
SqFtTotLiving 





图 4-13: 变量 SqFtTotLiving 的 广义 加 性 模型 回归 拟 合 ( 实 线 ) 与 平滑 (虚线 ) 的 对 比 





本 节 要 点 

。 在 回归 中 ， 离 群 值 表 现 为 具有 很 大 残 差 的 记录 。 

。 多 重 共 线性 会 导致 拟 合 回归 方程 中 存在 数值 不 稳定 的 问题 。 

。 混 清 变量 是 一 种 重要 的 预测 变量 。 如 果 在 一 个 模型 中 忽略 了 混 清 变量， 将 会 导致 回 
归 方 程 给 出 伪 关 系 。 

。 如 果 一 个 变量 的 效果 依赖 于 另 一 个 变量 (因子 变量 ) 的 层级 ， 那 么 在 两 个 变量 之 间 
需要 有 交互 项 。 

。 多 项 式 回归 可 以 拟 合 预测 变量 和 结果 变量 之 间 的 非 线性 关系 。 

。 样 条 是 一 组 连接 在 一 起 的 多 项 式 片段 ， 连 接点 被 称 为 结 点 。 

。 广义 加 性 模型 可 以 自动 指定 样 条 函数 中 的 结 点 。 











4.7.4 拓展 阅读 


关于 样 条 模型 和 广义 加 性 模型 的 更 多 内 容 ， 可 参见 Trevor Hastie、Robert Tibshirani 和 
Jerome Friedman 合 著 的 《统计 学 习 基 础 : 数据 挖掘 、 推 理 与 预测 》， 以 及 《统计 学 习 导 论 ， 
基于 R 应 用 》， 该 书 由 Gareth James、Daniela Witten、Trevor Hastie 和 Robert Tibshirani 合 
车 。 两 本 书 均 由 Springer 出 版 社 出 版 。 

















4.8 ”小结 


多 年 来 我 们 已 经 看 到 ， 回 归 的 应 用 比 其 他 任何 一 种 统计 方法 都 广泛 。 回 归 是 建立 多 个 预测 
变量 与 一 个 结果 变量 之 间 关 系 的 过 程 。 回 归 的 基础 形式 是 线性 回归 ， 即 每 个 预测 变量 具有 
一 个 回归 系数 ， 它 描述 了 预测 变量 和 结果 变量 之 间 的 线性 关系 。 在 一 些 更 高 级 的 回归 中 ， 
例如 在 多 项 式 回归 和 样 条 回归 中 ， 回 归 关 系 可 以 是 非 线性 的 。 经 典 统计 学 的 重点 在 于 发 现 
对 观测 数据 的 良好 拟 合 ， 以 解释 或 描述 一 些 现象 。 使 用 传统 ( 即 “ 样 本 内 ”) 的 度量 去 评 
佑 一 个 模型 ， 这 是 拟 合 的 强大 之 处 。 与 之 不 同 ， 数 据 科学 的 目标 通常 是 预测 新 数据 的 值 ， 
因此 使 用 的 是 基于 对 “样本 外 ”数据 预测 准确 性 的 度量 。 采 用 变量 选择 方法 来 降 维 ， 创 建 
更 紧 致 的 模型 。 



















































































回归 与 预测 | 133 








数据 科学 家 经 常会 遇 到 需要 自动 做 出 决策 的 问题 。 例 如 ， 一 封 电子 邮件 是 否 试图 进行 钓鱼 
式 攻 击 ? 一 名 客户 是 否 会 流失 ? 一 位 网 络 用 户 是 否 会 点 击 一 个 广告 ? 这 些 问题 都 可 以 归 为 
分 类 问题 。 分 类 可 能 是 最 重要 的 预测 形式 ， 甚 目标 是 预测 一 个 记录 值 是 0 还 是 1 (钓鱼 式 
攻击 或 非 钓鱼 式 攻击 ， 客 户 会 流失 或 者 不 会 流失 ， 用 户 会 点 击 或 者 不 会 点 击 ) ， 或 者 在 某 
些 情况 下 是 预测 类 别 之 一 例如 ，Gmail 就 将 收 件 箱 中 的 邮件 分 为 “主要 ” “社交” “促销 ” 
和 “论坛 ”类 )。 


在 很 多 情况 下 ， 我 们 需要 的 不 仅仅 是 简单 的 二 分 类 ， 还 需要 预测 一 个 实例 属于 某 个 类 的 
概率 。 

大 多 数 算法 并 非 只 是 让 模型 简单 地 指定 一 个 二 分 类 ， 而 是 可 以 返回 属于 感 兴趣 的 类 的 概率 
(或 倾向 )。 事 实 上 ， 在 使 用 R 实现 逻辑 回归 时 ， 默 认输 出 是 对 数 几 率 形式 的 ， 必 须 转换 为 
倾向 分 值 ， 然 后 才能 使 用 一 个 滑动 的 截止 值 将 倾向 分 值 转换 为 决策 。 通 用 方法 如 下 。 

(D 对 感 兴趣 的 类 确定 一 个 截止 概率 值 。 超 过 此 值 ， 就 可 以 认为 记录 属于 该 类 。 

CO) 估计 任何 模型 中 一 个 记录 属于 我 们 感 兴趣 的 类 的 概率 。 

(3) 如 果 该 概率 值 大 于 所 确定 的 截止 概率 值 ， 那 么 可 以 将 新 记录 指定 为 感 兴趣 的 类 。 

截止 概率 越 高 ， 被 预测 为 1 ( 即 属于 感 兴趣 的 类 ) 的 记录 越 少 。 反 之 ， 截 止 概率 越 低 ， 被 
预测 为 1 的 记录 越 多 。 

本 章 将 介绍 一 些 用 于 分 类 和 估计 倾向 性 的 重要 方法 。 更 多 关于 分 类 和 数值 预测 的 方法 ， 将 
在 下 一 章 中 介绍 。 
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两 个 以 上 的 类 别 ? 
绝 大 多 数 问 题 只 涉及 二 元 响应 变量 。 但 是 在 一 些 分 类 问题 中 ， 响 应 变量 有 两 个 以 上 的 
结果 。 例 如 ， 当 客户 的 订阅 合同 满 一 年 后 ， 可 能 会 有 三 个 结果 : 客户 离开 或 “流失 ” 
(了 = 2) ， 改 为 按 月 订阅 合同 (了 = 1)， 签 署 新 的 长 期 合同 (了 = 0) 。 我 们 的 目标 是 预测 
了 =j， 其 中 j=0、1 或 2。 本 章 介 绍 的 大 部 分 分 类 方法 ， 都 可 以 直接 或 经 过 小 的 修改 后 
用 于 具有 两 个 以 上 结果 的 响应 变量 。 即 使 是 在 具有 两 个 以 上 结果 的 情况 下 ， 通 常 也 可 
以 使 用 条 件 概率 ， 将 问题 重 写 为 一 系列 二 分 类 问题 。 例 如 ， 为 了 预测 订阅 合同 的 结果 ， 
我 们 可 以 将 该 问题 转换 为 两 个 二 分 类 预测 问题 。 
。 预测 了 =0 还 是 了 > 0。 
。 如 果 了 > 0， 预 测 了 = 1 还 是 了 = 2。 
将 该 问题 分 解 为 两 种 情况 是 一 种 合理 的 做 法 。 首 先 判 断 客户 是 否 会 流失 。 如 果 客 户 没 
有 流失 ， 那 么 判断 客户 将 会 选择 哪 种 类 型 的 合同 。 从 模型 拟 合 的 角度 来 看 ， 通 常 最 好 
将 多 分 类 问题 转换 为 一 系列 二 分 类 问题 ， 尤 其 是 在 一 个 类 别 比 其 他 类 别 更 为 普遍 的 情 
况 下 。 


5.1 朴素 贝 叶 斯 算法 


朴素 贝 叶 斯 算法 使 用 在 给 定 输出 情况 下 观测 到 预测 因子 值 的 概率 ， 估 计 给 定 一 组 预测 因子 
的 值 时 观测 到 结果 了 = i 的 概率 。" 























主要 术语 
条 件 概率 
在 给 定 另 一 个 事件 (比如 了 =i) 的 条 件 下 ， 观 测 到 某 个 事件 (比如 对 = i 的 概 
率 ， 记 作 PX | 
后 验 概率 
在 给 定 预测 因子 的 情况 下 ， 出 现 某 一 结果 的 概率 (后 验 概率 不 同 于 结果 的 先 验 概 
率 ， 后 者 并 未 考虑 预测 因子 的 信息 ) 。 











为 了 理解 贝 叶 斯 分 类 ， 我 们 从 设想 “ 非 朴 素 ” 的 贝 叶 斯 分 类 开始 。 对 于 每 个 要 分 类 的 记录 : 
(D) 找到 其 他 所 有 有 具有 相同 预测 因子 〈 即 预测 因子 的 值 相同 ) 的 记录 ， 

(2) 确定 这 些 记录 所 属 的 类 ， 以 及 其 中 哪个 类 是 主要 类 〈 即 最 有 可 能 的 类 ) ， 

(3) 将 该 类 指定 给 新 记录 。 

使 用 上 面 的 方法 ， 可 以 找 出 样本 中 与 要 分 类 的 新 记录 完全 相同 〈 指 所 有 预测 因子 值 相同 ) 
的 所 有 记录 。 




































































注 1: 本 章 中 各 节 的 内 容 ， 版 权 属于 本 书 作者 彼得 : 布鲁斯 和 安德鲁 ' 布鲁斯 ，@ 2017 Datastats，LLC。 使 用 


需 经 许可 。 

















在 标准 的 朴素 贝 叶 斯 算法 中 ， 预 测 因 子 必 须 是 分 类 (因子 ) 变量 。5.1.3 节 将 
介绍 两 种 适用 于 连续 变量 的 变通 方法 。 











5.1.1 准确 的 贝 叶 斯 分 类 是 不 切实 际 的 

如 果 预 测 变 量 超出 一 定 的 数量 ， 那 么 很 多 待 分 类 的 记录 就 无 法 准确 地 匹配 。 为 了 解释 这 个 
问题 ， 下 面 我 们 以 基于 人 口 统计 变量 的 投票 预测 模型 为 例 。 即 使 样本 的 规模 相当 大 ， 很 有 
可 能 其 中 也 不 会 包含 能 匹配 下 列 条 件 的 新 记录 :“ 来 自 美 国 中 西部 地 区 的 西班牙 毅 男 性 美 
国人 ,， 并且 具有 高 收入 ， 在 上 次 选举 中 投了 票 ， 在 之 前 的 选举 中 没有 投票 ， 有 3 个 女儿 和 
一 个 儿子 ， 已 经 离婚 。” 在 本 例 中 只 有 8 个 变量 ， 但 是 对 于 大 多 数 分 类 问题 而 言 ， 变 量 数 
目 远 多 于 此 。 只 是 在 5 个 同等 频繁 出 现 的 类 别 中 添加 了 一 个 新 变量 ， 就 将 匹配 的 概率 降低 
至 原来 的 20%。 


尽管 我 们 称 该 方法 为 “朴素 贝 叶 斯 ”， 但 不 应 将 其 当 作 一 种 贝 叶 斯 统计 方法 。 
朴素 贝 叶 斯 是 一 种 数据 驱动 的 经 验 性 方法 ， 仅 需要 具备 一 点 点 统计 学 专业 知 
识 。 它 的 名 字源 于 与 贝 叶 斯 规则 类 似 的 且 用 于 预测 的 计算 方式 ， 更 详细 地 
说 ， 就 是 在 给 定 结 果 的 情况 下 对 预测 值 概率 的 初始 计算 ， 以 及 对 结果 概率 的 
最 终 计 算 。 












































5.1.2 ”朴素 解决 方案 


在 朴素 贝 叶 斯 解决 方案 中 ， 我 们 不 再 将 概率 计算 局 限于 那些 匹配 待 分 类 记录 的 记录 上 ， 而 
是 使 用 整个 数据 集 。 杆 素 贝 叶 斯 的 改进 如 下 。 


(1) 对 于 二 元 响应 变量 了 =i (i= 0 或 1) ， 估 计 每 个 预测 因子 的 条 件 概率 PCC | Y= 六。 这 些 
是 当 观 测 到 了 = ; 时， 预测 因子 值 在 记录 中 的 概率 。 概 率 估计 值 为 训练 集中 了 = ; 的 记录 
中 蕊 值 的 比例 。 

(2) 将 这 些 概率 相 乘 ， 再 乘 以 属于 了 = ; 的 记录 的 比例 。 

(3) 对 所 有 的 类 ， 重 复 步 1 和 步骤 2。 

(4) 将 步骤 2 中 对 类 i 计算 得 到 的 值 ， 除 以 对 所 有 类 计算 得 到 的 这 些 值 的 总 和 ， 得 到 对 结果 

的 概率 估计 。 

(5) 将 记录 指派 给 对 于 该 组 预测 值 具有 最 大 概率 的 类 。 


朴素 贝 叶 斯 算法 也 可 以 定义 为 ， 在 给 定 一 组 预测 值 蕊 , …, 交 的 情况 下 ， 观 测 到 结果 了 = ; 
的 概率 





~ 











PPO, Ys, …, XY,) 


概率 值 PCEi, 石 , …, 马 ) 是 一 个 比例 因子 ， 它 可 确保 概率 值 介 于 0 和 1 之 间 ， 并 且 不 依赖 于 了 7。 


PO Yo, Ba) = PCY= 0)POA Y= OP |Y=0)* PC,|Y=0)+ 
P(Y= DP | Y= DPOG|Y= 1 PCE,|Y=1) 
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为 什么 称 上 面 的 公式 是 “朴素 的 ”(naive) ? 这 是 因为 我 们 做 了 一 个 简单 的 假设 ， ee 
定 观测 结果 的 情况 下 ， 预 测 因 子 值 向 量 的 确切 条 件 概率 ， 可 以 由 单个 条 件 概率 POX | 了 = i 
的 乘积 很 好 地 估计 出 来 。 换 句 话说 ， 我 们 假定 六 独立 于 其 他 所 有 的 预测 变量 羔 (k > 


这 样 























就 可 以 对 PC | 了 = 站 做 出 估计 ， 而 非 PC,%,…, 有 % | 了 = 


可 使 用 一 些 R 包 估计 朴素 贝 叶 斯 模型 。 下 面 的 代码 就 使 用 了 ktaR 软件 包 去 拟 合 模型 。 


Library(kLaR) 

Naive _model <- NaiveBayes(outcome ~ purpose_ + home_ + emp_Len_， 
data = na.omit(Loan_data)) 

naive_models$table 


$purpose_ 
var 
grouping credit card debt_ consolidation home_improvement major_purchase 
paid off 0.1857711 0.5523427 0.07153354 0.05541148 
default 0.1517548 0.5777144 0.05956086 0.03708506 
Var 
grouping medical other small_business 
paid off 0.01236169 0.09958506 0.02299447 
default 0.01434993 0.11415111 0.04538382 
$home_ 
var 
grouping MORTGAGE OWN RENT 


paid off 0.4966286 0.08043741 0.4229340 
default 0.4327455 0.08363589 0.4836186 


$emp_len_ 
Var 
grouping > 1 Year < 1 Year 
paid off 0.9690526 0.03094744 
default 0.9523686 0.04763140 








模型 的 输出 是 条 件 概率 PC | 了 = 让。 可 以 使 用 该 模型 预测 一 笔 新 贷款 的 结果 。 





new_loan 
purpose_ home_ emp_len_ 
1 small_business MORTGAGE > 1 Year 


在 本 例 中 ， 模 型 预测 了 一 次 贷款 拖欠 。 


predict(naive model, new_loan) 
$class 

[1] default 

Levels: paid off default 


$posterior 
paid off default 
[1,] 0.3717206 0.6282794 
































预测 还 返回 了 贷款 拖欠 概率 posterior 的 估计 值 。 我 们 知道 ， 朴 素 贝 叶 斯 分 类 会 生成 有 偏 
估计 。 然 而 ， 人 


偏 估计 ， 相 素 贝 叶 斯 就 能 给 出 很 好 的 结果 。 





5.1.3 数值 型 预测 变量 

从 定义 中 可 以 看 出 ， 贝 叶 斯 分 类 器 仅 适 用 于 分 类 预测 变量 。 例 如 ， 在 垃圾 邮件 分 类 中 ， 预 
测 任 务 关注 的 是 邮件 中 是 否 存 在 某 个 单词 、 短 语 或 字符 等 。 要 将 朴素 贝 叶 斯 用 于 数值 型 预 
测 变量 ， 需 要 采取 下 面 两 种 方法 之 一 。 

。 将 数值 型 预测 变量 划分 为 多 个 箱子 , 并 转换 为 分 类 预测 因子 , 然后 再 应 用 上 面 介绍 的 算法 。 
。 使 用 正 态 分 布 (参见 2.6 节 ) 等 概率 模型 ， 佑 计 条 件 概率 PC5 | 了 =)。 


如 果 训 练 数据 中 不 存在 预测 因子 类 ， 那 么 在 新 数据 中 ， 算 法 会 对 结果 变量 赋 
予 零 概率 。 而 其 他 一 些 方 法 会 直接 忽略 该 变量 ， 并 使 用 其 他 变量 给 出 的 信 
息 。 在 对 连续 变量 分 箱 时 ， 需 要 注意 这 一 点 。 










































































本 节 要 点 
。 朴素 贝 叶 斯 适用 于 分 类 的 (因子 型 的 ) 预测 和 结果 。 
。 朴素 贝 叶 斯 要 解答 的 问题 是 :“ 在 每 个 结果 类 别 中 ,哪些 预测 类 别 是 最 可 能 发 生 的 ? ” 
。 该 问题 可 以 转化 为 ， 在 给 定 预测 值 的 情况 下 ， 估 计 结 果 属 于 不 同类 别 的 概率 。 











5.1.4 拓展 阅读 


。 Trevor Hastie、Robert Tibshirani 和 Jerome Friedman 合 著 的 《统计 学 习 基 础 (第 2 版 )》。 

。 在 Galit Shmueli、Peter Bruce 和 Nitin Patel 合 著 的 Data Mining for Business Analytics: 
Concepts, Techniques, and Applications with XLMiner 一 书 中 ， 有 一 整 章 的 内 容 介 绍 朴素 贝 
叶 斯 。 该 书 有 针对 R、Excel 和 JMP 的 不 同 版 本 。 


5.2 判别 分 析 


判别 分 析 是 最 早 提出 的 统计 分 类 器 。1936 年 ， 统 计 学 家 R. A. Fisher 于 在 Annals of Bugenics 
期 刊 上 发 表 了 一 篇 文章 ， 首 次 提出 了 这 一 概念 。” 























主要 术语 
协 方差 
对 一 个 变量 相对 于 另 一 个 变量 的 一 致 程度 (幅度 和 方向 类 似 ) 的 度量 。 
判别 函数 
当 应 用 于 预测 变量 上 时 ， 该 函数 可 以 使 类 之 间 的 分 离 度 最 大 化 。 
判别 权重 
应 用 判别 函数 得 到 的 分 值 ， 用 于 估计 记录 属于 某 个 类 的 概率 。 



































注 2: 确实 令 人 惊讶 的 是 , 第 一 篇 关于 统计 分 类 的 文章 , 竟然 发 表 在 专门 针对 优生 学 研究 的 期 刊 上 。 事 实 上 ， 
在 早期 发 展 中 ， 统 计 学 的 确 与 优生 学 密切 相关 。 











-A 
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判别 分 析 包含 了 很 多 种 方法 ， 其 中 最 常用 的 是 线性 判别 分 析 法 (LDA)。 事 实 上 ， 费 希 尔 
提出 的 原始 方法 与 线性 判别 分 析 法 略 有 差异 ， 但 原理 基本 相同 。 随 着 树 模型 和 逻辑 回归 等 
更 复杂 的 方法 的 提出 ， 如 今 线性 判别 分 析 法 的 使 用 不 再 那么 广泛 了 。 

但 是 ， 我 们 依然 能 在 某 些 应 用 中 遇 到 线性 判别 分 析 法 。 此 时 ， 线 性 判别 分 析 法 可 能 关联 使 
用 了 其 他 更 广 为 使 用 的 方法 ， 例 如 主 成 分 分 析 (参见 7.1 节 ) 等 。 此 外 ， 判 别 分 析 可 以 提 
供 对 预测 因子 重要 性 的 度量 ， 并 且 在 特征 选择 上 也 是 一 种 计算 效率 很 高 的 方法 。 


隐 含 狄 利克 雷 分 布 (Latent Dirichlet Allocation) 同样 被 简写 为 LDA， 但 不 要 
将 它 和 线性 判别 分 析 法 混淆 了 。 隐 含 狄 利克 雷 分 布 主要 用 于 文本 和 自然 语言 
处 理 ， 与 线性 判别 分 析 毫 无 关系 。 

















5.2.1 协 方差 矩阵 


为 了 理解 判别 分 析 ， 我 们 先 介绍 一 下 两 个 或 多 个 变量 间 协 方差 的 概念 。 协 方差 衡量 了 两 个 
变量 x 和 z 之 间 的 关系 。 如 果 用 和 z 分 别 表 示 变 量 x 和 z 的 均值 (参见 1.3.1 节 )， 那 么 x 
和 z 间 的 协 方差 s, 可 由 下 式 给 








30-7), -3) 


n—l 





二 


其 中 ,n 是 记录 的 个 数 。 注 意 ， 公 式 中 的 除数 是 n-1， 而 不 是 n。 参 见 1.4.1 市 中 的 知识 点 
“自由 度 是 n, 还 是 n-1? ” 
和 相关 系数 (参见 1.7 节 ) 一 样 ， 协 方差 为 正 值 表 示 正 相关 ， 为 负 值 表示 负 相 关 。 但 是 ， 
相关 系数 的 值 限定 在 -1 到 1 的 区 间 内 ， 而 协 方差 与 变量 x 和 z 具 有 相同 的 尺度 。 在 x 和 z 
的 协 方差 矩阵 二 中 ， 对 角 线 元 素 (即行 和 列 对 应 于 同一 变量 ) 为 单个 变量 的 方差 ， 即 5, 和 
s2 ， 而 非 对 角 线 元 素 是 相应 变量 对 间 的 协 方差 。 


bp se 3x 区 
Si 3 


回想 一 下 ， 标 准 偏差 用 于 将 变量 归 一 化 为 分 数 。 协 方差 矩阵 是 对 多 变量 
扩展 的 归 一 化 过 程 。 这 种 归 一 化 被 称 为 马 氏 距离 (参见 6.1.2 节 中 的 知识 点 
“其 他 距离 度量 ”)， 而 且 它 与 线性 判别 分 析 函 数 相关 。 









































5.2.2 ” 费 希 尔 线 性 判别 分 析 


为 了 简单 起 见 ， 我 们 侧重 于 其 中 一 种 分 类 问题 ， 即 使 用 两 个 连续 的 数值 变量 (x, z) 预测 二 
元 结果 y。 从 技术 角度 上 看 ， 判 别 分 析 假 设 预测 变量 是 符合 正 态 分 布 的 连续 变量 ， 但 在 实 

践 中 ， 该 方法 也 适用 于 与 正 态 分 布 偏离 不 大 的 情况 ， 也 适用 于 二 元 预测 因子 。 费 希 尔 线性 

判别 法 区 分 了 组 间 变 异性 和 组 内 变异 性 。 具 体 而 言 ， 在 将 记录 划分 为 两 组 时 ， 线 性 判别 














分 析 法 侧重 于 相对 “组 内 ”平方 和 SSuon (测量 了 组 内 的 变异 性 ) 最 大 化 “组 间 ” 平 方 和 
SSbeweens 测量 了 组 间 的 变异 性 )。 在 这 种 情况 下 ， 两 个 组 分 别 对 应 于 y = 0 时 的 记录 Co 2z0) 
和 y=1 时 的 记录 (xi, 21)。 该 方 法 找 出 最 大 化 平方 和 比率 Ss 的 线性 组 全 WX 十 WZ 

组 间 平 方 和 是 两 个 组 的 均值 之 间距 离 的 平方 ， 而 组 内 平方 和 是 围绕 组 内 均值 的 分 散 程度 ， 
并 以 协 方 差 矩阵 为 权重 。 直 观 而 言 ， 该 方法 通过 最 大 化 组 间 平 方 和 并 最 小 化 组 内 平方 和 ， 
生成 两 组 之 间 的 最 大 分 离 。 


5.2.3 一 个 简单 的 例子 
W. N. Venables 和 B.D. Ripley 在 其 合 著 的 Modern 4pplied Statistics With S 一 书 中 介绍 了 MASS 
软件 包 。MASS 软件 包 提 供 了 实现 线性 判别 分 析 法 的 R 函数 。 下 面 ， 我 们 使 用 两 个 预测 变量 
loaner_score 和 payment_inc_ratio 在 贷款 数据 的 一 个 样本 上 应 用 该 函数 ， 并 给 出 线性 判 
别 器 权重 的 估计 值 。 

library(MASS) 


loan_lda <- lda(outcome ~ borrower_score + payment_inc_ratio, 
data=loan3000) 











loan_lda$scaling 

LD1 
borrower_score -6.2962811 
payment_inc_ratio 0.1288243 


在 特征 选择 中 使 用 判别 分 析 法 
如 果 预 测 变 量 在 使 用 线性 判别 分 析 法 之 前 已 被 归 一 化 ， 那 么 判别 器 的 权重 测 
定 了 变量 的 重要 性 ， 这 为 特征 选择 提供 了 一 种 计算 效率 很 高 的 方法 。 








lda 函数 可 以 预测 贷款 的 “拖欠 ”(default) 与 “ 付 清 ”(paid off) 概率 。 


pred <- predict(Loan_Lda) 
head(pred$posterior) 
paid off default 


25333 0.5554293 0.4445707 
27041 0.6274352 0.3725648 
7398 0.4014055 0.5985945 
35625 0.3411242 0.6588758 
17058 0.6081592 0.3918408 
2986 0.6733245 0.3266755 


为 了 进一步 闸 明 线性 判别 分 析 法 的 工作 原理 ， 我 们 对 预测 情况 进行 绘图 。 我 们 使 用 预测 函 
数 1da 的 输出 ， 估 计 一 个 拖欠 概率 的 曲线 。 


lda_df <- cbind(loan3000, prob_default=pred$posterior[,'default']) 
ggpLot(data=Lda_df， 
aes(x=borrower_score, y=payment_inc_ratio, color=prob_default)) + 
geom point(alpha=.6) + 
scale_ color_gradient2(low='white', high='blue') + 
geom_line(data=lda_df0, col='green', size=2, alpha=.8) + 


生成 的 绘图 如 图 5-1 所 示 。 
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图 5-1: 线性 判别 分 析 法 预测 的 贷款 拖 叉 。 其 中 使 用 了 两 个 变量 借款 者 的 信用 评分 ， 支 出 与 收入 的 
比率 


线性 判别 分 析 法 预测 使 用 判别 函数 的 权重 ， 将 预测 空间 划分 为 两 个 区 域 ， 如 图 中 的 实 线 所 
示 。 远 离 实 线 的 预测 值 ， 具 有 更 高 的 置信 度 ( 即 概率 远大 于 0.5)。 


判别 分 析 的 扩展 


用 于 更 多 的 预测 变量 : 尽管 本 节 的 内 容 和 例子 中 仅 使 用 了 两 个 预测 变量 ,但 
线性 判别 分 析 法 同样 适用 于 两 个 以 上 的 预测 变量 。 唯 一 的 限制 因素 是 记录 的 
数量 (在 估计 协 方差 矩阵 时 ， 需 要 每 个 变量 都 具有 足够 多 的 记录 ， 但 在 数据 
科学 应 用 中 ， 这 通常 并 不 是 一 个 问题 )。 

二 次 判别 分 析 : 判别 分 析 还 有 其他 一 些 变 体 ， 其 中 最 著名 的 是 二 次 判别 分 析 
(QDA)。 虽 然 名字 这 么 叫 ， 但 二 次 判别 分 析 依 然 是 一 种 线性 判别 函数 。 两 者 
之 间 的 主要 差别 在 于 ， 对 于 了 =0 和 了 Y= 1 的 情况 ， 线 性 判别 分 析 假 设 两 组 间 
的 协 方差 矩阵 是 相同 的 ， 而 二 次 判别 分 析 则 允许 两 组 间 的 协 方差 矩阵 是 不 同 
的 。 在 实践 中 ， 这 一 差别 对 于 大 多 数 应 用 并 不 重要 。 























本 节 要 点 
。 判别 分 析 适 用 于 连续 预测 因子 或 分 类 预测 因子 ， 也 适用 于 分 类 结果 。 
。 判别 分 析 使 用 协 方差 矩阵 计算 线性 判别 函数 ， 该 函数 用 于 区 分 属于 不 同类 的 记录 。 
。 线性 判别 函数 对 每 个 记录 生成 一 个 权重 或 分 值 (每 个 可 能 的 类 对 应 一 个 权重 ) ， 以 
此 来 确定 记录 的 估计 类 。 











5.2.4 拓展 阅读 


。 Trevor Hastie、Robert Tibshirani 和 Jerome Friedman 合 车 的 《统计 学 习 基础 (第 2 版 )》， 
以 及 Gareth James、Daniela Witten、Trevor Hastie 和 Robert Tibshirani 合 著 的 《统计 学 
习 导 论 : 基于 R 应 用 》， 都 有 一 节 的 内 容 介 绍 了 判别 分 析 。 

。 在 Galit Shmueli、Peter Bruce 和 Nitin Patel 合 著 的 Data Mining for Business Analytics: Concepts, 
Techniques, and Applications with XLMiner 一 书 中 ， 有 一 整 章 内 容 介 绍 了 判别 分 析 。 

。 如 果 对 判别 分 析 的 历史 感 兴趣 ， 可 以 在 网 上 找到 费 希 尔 1936 年 发 表 在 Annals of Eugenics 
(现在 更 名 为 4Annals of Genetics) 上 的 论文 “The Use of Multiple Measures in Taxonomic 
Problems” 。 


5.3 逻辑 回归 


逻辑 回归 类 似 于 多 元 线性 回归 ， 只 是 结果 是 二 元 的 。 它 使 用 多 种 变换 将 问题 转换 成 可 以 拟 
合 线性 模型 的 问题 。 逻 辑 回归 也 是 一 种 结构 化 模型 方法 ， 而 非 以 数据 为 中 心 的 方法 。 这 与 
判别 分 析 一 样 ， 但 是 不 同 于 天 最 近邻 和 朴素 贝 叶 斯 。 逻 辑 回 归 的 计算 速度 快 ， 模 型 输出 可 
以 快速 地 对 新 数据 打分 ， 因 此 得 到 了 广泛 的 使 用 。 

































































主要 术语 
Logit 函数 
一 种 能 将 属于 某 个 类 的 概率 映射 到 +oo 范围 上 (而 不 是 0 到 1 之 间 ) 的 函数 。 


同义词 : 对 数 几 率 





几率 
“成 功 ”(1) 与 “不 成 功 ”(0) 之 间 的 比率 。 
对 数 几率 
转换 后 的 模型 ( 即 线性 模型 ) 中 的 响应 。 该 响应 已 被 映射 回 概率 值 。 











我 们 面 对 的 问题 是 ， 如 何 将 一 个 二 元 结果 变量 转换 为 一 种 可 以 以 线性 方式 建 模 的 结果 变 
量 ， 然 后 再 转换 回 二 元 结果 变量 ? 












































5.3.1 逻辑 响应 函数 和 Logit 函 数 
该 问题 的 关键 在 于 逻辑 响应 函数 和 Logit 函数 。 它 们 实现 了 将 [0, 1] 区 间 内 的 概率 值 ， 映 射 
到 适用 于 线性 建 模 的 更 广 的 区 间 上 。 


首先 ， 我 们 不 能 将 结果 变量 简单 看 作 二 元 标签 ， 而 应 视 为 标签 是 1 的 概率 p。 我 们 可 能 
真 地 想 将 概率 P 建 模 为 预测 变量 的 一 个 线性 函数 。 






































p=p,+PBx + 1 +B x 
但 是 在 拟 合 模型 时 ， 并 不 能 确保 概率 p 位 于 [0, 1] 区 间 内 。 而 作为 一 个 概率 值 ， 概 率 p 必 
位 于 该 区 间 内 。 
下 面 换 一 种 做 法 。 我 们 通过 在 预测 因子 中 应 用 逻辑 响应 函数 或 逆 Logit (inverse logit) 函数 
去 建 模 p。 
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这 一 转换 确保 了 p 值 位 于 [0, 1] 区 间 内 。 


为 了 消去 分 母 中 的 指数 表达 式 ， 我 们 考虑 使 用 几率 (odds) 而 非 概 率 。 对 于 世界 各 地 的 投 
注 者 来 说 ， 几 率 无 疑 是 个 耳熟能详 的 词语 ， 它 表示 “成 功 ”(1) 与 “不 成 功 ”(0) 两 者 间 
的 比率 。 全 大 洒 的 测 二 汪 几率 是 事件 发 生 的 概率 除 以 事件 不 会 发 生 的 概率 。 例 如 ， 如 果 
一 匹 赛马 胜出 的 概率 为 0.5， 那 么 “未 胜出 ”的 概率 就 为 (1-0.5) = 0.5， 这 时 几率 为 1。 





Odds(Y =1)=-2— 
1-p 





我 们 可 以 使 用 逆 几 率 函 数 ， 由 几率 得 到 概率 。 


Odds 
1+Odds 


将 概率 与 前 面 介绍 的 逻辑 响应 函数 相 结 合 ， 得 到 : 





Odds(Y 之 1 em tAn tbs +*+tpaxg 
最 后 ， 对 等 式 两 端 取 对 数 ， 得 到 预测 因子 的 一 个 线性 函数 表达 式 。 
log(Odds(Y =1)=B,+ Br + PB t+ Bx, 


对 数 几 率 (log-odds) 函数 也 称 为 Logit 函数 ， 它 将 概率 p 从 [0, 1] 区 间 上 映射 为 (-oo, +oo) 区 
间 上 的 任何 值 ， 如 图 5-2 所 示 。 完 成 这 样 的 转换 过 程 后 ， 我 们 就 可 以 使 用 线性 模型 去 预测 
概率 。 反 过 来 ， 我 们 也 可 以 通过 应 用 截止 规则 (cut-off rules)， 将 概率 大 于 截止 值 的 记录 
分 类 为 1， 进 而 将 概率 值 映 射 为 分 类 值 。 
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图 5-2: 将 概率 映射 到 适用 于 线性 模型 尺度 上 的 函数 ( 即 Logit 函数 ) 


5.3.2 ”人 逻辑 回归 和 广义 线性 模型 
逻辑 回归 公式 中 的 响应 ， 就 是 二 元 结果 1 的 对 数 几 率 。 我 们 看 到 的 只 是 二 元 结果 ， 而 不 是 
对 数 几 率 ， 因 此 需要 一 种 特殊 的 统计 方法 去 拟 合 方程 。 逻 辑 回归 是 广义 线性 模型 (GLM) 
的 一 种 特殊 实例 ， 用 于 将 线性 回归 扩展 到 其 他 设置 。 

使 用 R 中 的 gln 函数 可 以 拟 合 一 个 逻辑 回归 ， 这 时 需要 将 函数 的 参数 famity 设置 为 binomial。 
对 于 6.1 节 中 的 个 人 贷款 数据 ， 下 面 的 代码 拟 合 了 一 个 逻辑 回归 。 


logistic model 
































Call: glm(formula = outcome ~ payment inc _ ratio + purpose_ + home_+ 


emp_len_ + borrower_score, family = "binomial", data = loan_data) 
Coefficients: 

(Intercept) payment_inc_ratio 
1.26982 0.08244 
purpose_debt_consolidation purpose_home_improvement 
0.25216 0.34367 
purpose_major_purchase purpose_medical 
0.24373 0.67536 
purpose_other purpose_small_business 
0.59268 1.21226 
home_OWN home_RENT 
0.03132 0.16867 
emp_len_ < 1 Year borrower_score 
0.44489 -4.63890 
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Degrees of Freedom: 45341 Total (i.e. NULL); 45330 Residual 
NULL Deviance: 62860 
Residual Deviance: 57510 AIC: 57540 


其 中 ，outcome 是 响应 变量 ， 在 还 清 贷款 时 值 为 0， 在 欠 贷 时 值 为 1。purpose_ 和 home_ 是 
分 别 表 示 贷 款 目 的 和 房屋 产权 状态 的 因子 变量 。 在 回归 中 ， 具 有 己 个 层级 的 因子 变量 可 以 
用 P-L1 个 列表 示 。 在 R 中 ， 默 认 使 用 了 参考 编码 ， 即 将 所 有 的 层 与 参考 层 做 对 比 (参见 
4.4 节 )。 上 述 因 子 的 参考 层 分 别 是 credit_card 和 MORTGAGE。 变 量 borrower_score 是 一 个 
位 于 [0, 1] 区 间 的 分 值 ， 表 示 了 借款 者 的 信誉 度 范 围 从 “ 差 ” 到 “优秀 "”。 访 变量 是 使 用 天 
最 近邻 方法 从 其 他 几 个 变量 中 创建 的 ， 有 具体 方法 参见 6.1.6 市 。 


5.3.3 ”广义 线性 模型 


除了 回归 之 外 ， 另 一 类 重要 的 模型 是 广义 线性 模型 。 广 义 线性 模型 的 特征 主要 体现 在 下 
两 个 方面 。 


。 一 个 概率 分 布 或 家 族 。 例 如 ， 对 于 次 辑 回归 ， 它 是 二 项 分 布 。 
。 一 个 将 啊 应 映射 到 预测 因子 的 连接 函数 (link function)。 例 如 ， 对 于 逻辑 回归 ， 它 是 
Logit 国 数 。 

到 目前 为 止 ， 广 义 线性 模型 最 常见 的 形式 是 逻辑 回归 。 数 据 科 学 家 还 会 看 到 其 他 类 型 的 广 
义 线性 模型 。 有 时 ， 我 们 会 发 现 连接 函数 使 用 的 是 对 数 函 数 ， 而 非 Logit 函数 。 在 实践 中 ， 
对 于 大 多 数 应 用 而 言 ， 使 用 对 数 连接 函数 基本 不 会 对 结果 造成 很 大 的 差异 。 泊 松 分 布 常用 
于 对 计数 数据 建 模 ， 例 如 用 户 在 一 定时 间 内 访问 一 个 网 页 的 次 数 。 其 他 的 分 布 还 包括 负 二 
项 分 布 和 Gamma 分 布 ， 它 们 通常 用 于 建 模 所 使 用 的 时 间 ， 例 如 发 生 故 障 前 正常 运行 的 时 
间 。 不 同 于 人 逻辑 回归 ， 使 用 这 些 模型 的 广义 线性 模型 的 应 用 更 为 微妙 ， 因 此 在 使 用 中 应 更 
为 谨慎 。 除 非 你 熟悉 并 理解 这 些 方法 的 使 用 以 及 其 中 的 陷阱 ， 否 则 应 尽量 避免 使 用 它们 。 


5.3.4 ”逻辑 回归 的 预测 值 


逻辑 回归 的 预测 值 是 以 对 数 几 率 了 =log(Odds(Y =1])) 的 形式 给 出 的 。 预 测 概率 可 以 由 逻辑 
响应 函数 给 出 。 







































































[= 





































































































TI 


例如 ， 下 面 我 们 查看 logistic_model 模型 的 预测 值 。 


pred <- predict(logistic model) 
summary(pred) 

Min. 1st Qu . Median Mean 3rd Qu. Max. 
-2.728000 -0.525100 -0.005235 0.002599 0.513700 3.658000 


很 容易 将 这 些 值 转换 为 概率 值 。 


prob <- 1/(1 + exp(-pred)) 
> summary(prob) 

Min. 1st Qu. Median Mean 3rd Qu. Max . 
0.06132 0.37170 0.49870 0.50000 0.62570 0.97490 



































我 们 可 以 看 到 ， 虽 然 输出 结果 位 于 [0, 1] 区 间 内 ， 但 是 它们 并 未 指明 预测 值 是 欠 贷 还 是 已 
偿还 贷款 。 和 天 最 近邻 分 类 器 一 样 ， 我 们 可 将 任何 大 于 0.5 的 截止 值 定义 为 默认 值 。 在 实 
践 中 ， 如 果 目 标 是 识别 罕见 类 的 成 员 ， 通 常 使 用 较 低 的 截止 值 〈 参 见 5.4.2 节 )。 


5.3.5 解释 系数 和 优势 比 


逻辑 回归 的 一 个 优点 是 ， 其 所 生成 的 模型 无 须 重 新 计算 ， 就 可 以 快速 地 为 新 数据 打分 。 另 
一 个 优点 是 ， 与 其 他 的 分 类 方法 相 比 ， 其 所 生成 的 模型 易于 解释 。 对 于 此 ， 关 键 理念 是 对 
优势 比 的 理解 。 对 于 二 元 因子 变量 X， 优 势 比 最 容易 理解 。 

























































































Odds(Y =1|X =1) 

Odds(Y =1|X=0) 

上 面 的 公式 可 以 解释 为 : 当 和 = 1 时 了 = 1 的 几率 与 = 0 时 了 = 1 的 几率 的 对 比 。 如 果 优 
势 比 为 2， 那 么 表示 当 X=1 时 了 = 1 的 几率 ， 是 当 X=0 时 了 = 1 的 几率 的 两 倍 。 

为 什么 要 使 用 优势 比 ， 而 不 是 概率 ? 这 是 因为 逻辑 回归 中 的 回归 系数 记 是 总 优势 比 的 对 数 。 
为 了 更 清楚 地 解释 这 一 问题 ,下面 给 出 一 个 例子 。 回 顾 5.3.2 节 中 拟 合 的 模型 ， 其 中 purpose_ 
smaLL_businessis 的 回归 系数 为 1.21226。 这 表示 相 比 于 以 还 请 信用 卡 债务 为 目的 的 贷款 ， 
贷款 给 一 个 小 企业 可 将 几率 (贷款 拖欠 对 比 贷款 还 清 ) 降低 exp(1.21226)， 约 等 于 3.4。 显 
然 ， 相 比 于 其 他 用 途 类 型 的 贷款 ， 以 创建 或 扩大 小 企业 为 目的 的 贷款 具有 更 高 的 风险 。 

5-3 显示 了 在 优势 比 大 于 1 的 情况 下 ， 优 势 比 和 对 数 优势 比 之 间 的 关系 。 因 为 回归 系数 
使 用 了 对 数 尺度 ， 所 以 回归 系数 每 增加 1， 优 势 比 将 增加 exp(1)， 约 等 于 2.72。 


优势 比 = 
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优势 比 


5017 
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2 3 
对 数 优 势 比 











5-3; 优势 比 和 对 数 优势 比 间 的 关系 
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对 于 数值 型 变量 对 的 优势 比 ， 也 可 以 做 类 似 的 解释 。 它 测量 了 在 发 生 单 位 变化 时 ， 优 势 
比 的 变化 情况 。 例 如 ， 如 果 将 支出 与 收入 间 的 比率 从 5 增加 到 6， 那 么 拖欠 贷款 的 几率 将 
增加 exp(0.08244)， 约 等 于 1.09。 变 量 borrow_score 表示 借款 者 的 信用 评分 ， 其 值 的 范围 
从 0 ( 低 ) 到 1 (高 )。 与 信用 最 差 的 借款 者 相 比 ， 信 用 最 好 的 借款 者 的 贷款 拖欠 概率 要 小 
exp(-4.63890)， 约 等 于 0.01。 换 名 话说 ， 信 用 最 差 的 借款 者 的 贷款 拖欠 风险 是 信用 最 好 的 
借款 者 的 100 倍 ! 


5.3.6 ”线性 回归 与 逻辑 回归 : 相似 之 处 和 不 同 之 处 

多 元 线性 回归 和 逻辑 回归 有 许多 共同 点 。 它 们 都 假设 预测 因子 与 响应 之 间 存 在 线性 参数 的 
关联 关系 ， 并 且 都 用 类 似 的 方式 探索 并 发 现 最 优 模型 。 将 模型 概 化 为 线性 以 使 用 预测 因子 
的 样 条 转换 方法 ， 同 样 适用 于 逻辑 回归 。 但 是 ， 逻 辑 回 归 在 以 下 两 方面 存在 根本 差异 。 

。 模型 的 拟 合 方式 。 逻 辑 回归 不 适用 最 小 二 乘法 。 

。 模型 残 差 的 性 质 和 分 析 方法 。 

模型 的 拟 合 

线性 回归 使 用 最 小 二 乘法 拟 合 ， 可 以 使 用 均 方 根 误差 和 R 方 等 统计 量 评估 拟 合 的 质量 。 
不 同 于 线性 回归 ,逻辑 回归 并 不 存在 一 种 封闭 的 解决 方案 ， 模 型 必须 使 用 最 大 似 然 估计 
(MLE) 拟 合 。 最 大 似 然 估计 试图 找 出 一 种 最 有 可 能 生成 所 见 数据 的 模型 。 在 逻辑 回归 方 
程 中 ， 响 应 并 非 0 或 1， 而 是 对 响应 为 1 的 对 数 几 率 的 估计 。 最 大 似 然 估 计 可 以 找 出 一 种 
解决 方案 ， 使 估计 的 对 数 几 率 能 最 优 地 描述 所 观测 到 的 结果 。 最 大 似 然 估 计算 法 中 使 用 了 
拟 牛 顿 优化 法 ， 该 机 制 根据 当前 的 参数 值 ， 在 打分 步骤 〈 即 费 希 尔 分 值 ) 间 和 迭代 ， 逐 步 更 
新 参数 值 ， 以 改进 模型 的 拟 合 度 。 




















































































































最 大 似 然 估 计 
下 面 ， 我 们 使 用 统计 学 符号 详细 地 介绍 最 大 似 然 舍 计算 法 。 算 法 的 输入 是 一 组 数据 了 Y， 
部, 站， 以 及 依赖 于 一 组 参数 0 的 概率 模型 90 (Xi, 名 ,…, 成)。 最 大 似 然 估计 的 目标 
是 找 出 一 组 参数 6， 使 得 (Xi, 加,…, 总 ) 的 值 最 大 。 也 就 是 说 ， 给 定 模型 40 (Xi, 名 ,…， 
马 )， 最 大 似 然 估 计 最 大 化 观测 到 (Ki, 刺 ,成 ) 的 概率 。 在 拟 合 过 程 中 ， 模 型 使 用 偏差 
进行 评估 。 
偏差 = —2log( Pi, YH,)) 

偏差 值 越 低 ， 拟 合 越 好 。 











幸运 的 是 ， 大 多 数 用 户 并 不 需要 关心 拟 合算 法 的 细节 ， 因 为 这 是 由 统计 软件 处 理 的。 大 多 数 
数据 科学 家 也 不 需要 关心 拟 合 的 方法 ， 只 需要 知道 它 能 在 一 定 的 假设 条 件 下 找 出 好 的 模型 。 
处 理 因 子 变量 

和 线性 回归 一 样 ， 我 们 需要 对 逻辑 回归 中 的 因子 变量 进行 编码 ， 参 见 4.4 节 。 
在 R 及 其 他 一 些 软件 中 ， 通 常会 使 用 参考 编码 自动 地 处 理 编 码 问 题 。 本 章 中 
介绍 的 所 有 其 他 分 类 方法 一 般 也 使 用 独 热 编码 表示 (参见 6.1.3 节 )。 



































5.3.7 ”模型 评估 


和 其 他 分 类 方法 一 样 ， 对 逻辑 回归 的 评估 也 依赖 于 模型 对 新 数据 的 分 类 准确 程度 《参见 
5.4 节 )。 类 似 于 线性 回归 ， 我 们 可 以 使 用 一 些 标 准 的 统计 工具 去 评估 并 改进 模型 。 除 了 佑 








计 的 回归 系数 ，R 还 会 将 回归 系数 的 标准 误差 、z 值 和 pp 值 等 一 并 给 出 。 


summary(logistic model) 


Call: 








glm(formula = outcome ~ payment_ inc_ratio + purpose_ + home_+ 


emp_len_ + borrower_score, family = "binomial", data = loan_data) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-2.51951 -1.06908 -0.05853 1.07421 2.15528 


Estimate Std. Error z value Pr(>|z|) 
453 < 2e-16 
177 < 2e-16 
200 < 2e-16 
479 7.48e-14 
572 4.84e-06 
520 5.46e-14 
.154 < 2e-16 
.410 < 2e-16 
0.403 
.016 1.09e-15 
340 < 2e-16 
.082433 -56.275 < 2e-16 


Coefficients: 

(Intercept) 1.269822 0.051929 
payment_inc_ratio 0.082443 0.002485 
purpose_debt_consolidation 0.252164 0.027409 
purpose_home_improvement 0.343674 0.045951 
purpose_major_purchase 0.243728 0.053314 
purpose_medical 0.675362 0.089803 
purpose_other 0.592678 0.039109 
purpose_small_business 1.212264 0.062457 
home_OWN 0.031320 0.037479 
home_RENT 0.168670 0.021041 
emp_len_ < 1 Year 0.444892 0.053342 
borrower_score -4.638902 0 


Signif. codes: © '***! 0.001 '**' 0.01 '*' 0.05 


24. 
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1 


.836 


BL 


(Dispersion parameter for binomial family taken to be 1) 


NULL deviance: 64147 on 46271 degrees of freedom 
Residual deviance: 58531 on 46260 degrees of freedom 


AIC: 58555 


Number of Fisher Scoring iterations: 4 
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炎炎 类 


炎炎 类 
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炎炎 类 
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火炎 类 


炎炎 类 


炎炎 类 


炎炎 类 


炎炎 类 


炎炎 类 


解释 p 值 时 的 注意 事项 与 回归 中 一 样 ， 我 们 应 将 p 值 视 为 衡量 变量 重要 性 的 一 个 相对 指标 
(参见 4.2.2 市 )， 而 不 是 衡量 统计 显著 性 的 正式 标准 。 具 有 二 元 响应 的 逻辑 回归 模型 没有 











相关 的 均 方 根 误差 或 R 方 。 鉴 于 此 ， 逻 辑 回 归 模 型 通常 使 用 更 通用 的 分 类 度量 订 


内 容 ， 参 见 5.4 节 。 














线性 回归 中 的 许多 其 他 概念 ， 同 样 可 以 应 用 到 逻辑 回归 


们 可 以 使 用 逐步 回电、 拟 合 交 互 项 ， 或 是 加 入 样 条 项 。 在 使 用 混 请 变量 和 相关 变 

















估 。 有 具体 


及 其 他 广义 线性 模型 中 。 例 如 ， 我 











注 的 问题 ， 也 适用 于 逻辑 回归 (参见 4.5 节 )。 我 们 可 以 使 用 mgcv 软件 包 拟 合 广义 添加 模 








型 (参见 4.7.3 节 )。 





Logistic_gam <- gam(outcome ~ s(payment_inc_ratio) + purpose_ + 
home_ + emp_len_ + s(borrower_score), 
data=loan_data, family='binomial') 


逻辑 回归 的 一 个 不 同 之 处 在 于 对 残 差 的 分 析 。 在 回归 中 (参见 图 4-9)， 可 以 直接 计算 偏 
残 差 。 


terms <- predict(logistic gam, type='terms') 
partial_resid <- resid(logistic model) + terms 
df <- data.frame(payment_inc_ratio = loan_data[, 'payment_ inc_ratio'], 
terms = terms[, 's(payment_inc_ratio)'], 
partial_resid = partial_resid[, 's(payment_inc_ratio)']) 
ggplot(df, aes(x=payment_inc_ratio, y=partial_resid, solid = FALSE)) + 
geom_point(shape=46, alpha=.4) + 
geom line(aes(x=payment_inc_ratio, y=terms), 
color='red', alpha=.5, size=1.5) + 
labs(y='Partial Residual') 


生成 的 绘图 如 图 5-4 所 示 。 pe ein 它 位 于 两 组 点 云 之 间 。 顶 
部 的 点 云 对 应 于 响应 1 (贷款 被 拖欠 )， 底 部 的 点 云 对 应 于 响应 0 (贷款 已 还 清 )。 对 于 输 
出 为 二 元 的 逻辑 回归 ， 这 是 非常 下 型 的 克基 虽然 逻辑 回归 中 的 偏 残 差 略 逊 于 回归 中 残 差 
的 意义 ， 但 它 依然 有 助 于 确认 非 线性 行为 和 识别 高 影响 记录 。 
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图 5-4: 逻辑 回归 的 偏 残 差 


可 以 忽略 summary 国 数 给 出 的 部 分 输出 。 例 如， 分 散 度 参数 并 不 适用 于 逻辑 
归 ， 它 适用 于 其 他 类 型 的 广义 线性 模型 。 残 差 偏差 和 打分 计算 的 迭代 次 数 是 与 
最 大 似 然 拟 合 方法 相关 的 参数 。 参 见 5.3.6 节 中 的 知识 点 “最 大 似 然 估 计 ”。 
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本 节 要 点 
。 逻辑 回归 和 线性 回归 类 似 ， 只 不 过 其 结果 是 二 元 变量 。 
。 在 远 辑 回归 中 需要 做 多 次 转换 ， 以 将 模型 转化 为 一 种 可 以 像 线性 模型 一 样 拟 合 的 形 
式 ， 并 使 用 对 数 优势 比 作为 响应 变量 。 
。 通过 选 代 过 程 拟 合 了 线性 模型 之 后 ， 应 将 对 数 几 率 映 射 回 概率 值 。 
。 逻辑 回归 的 计算 快速 ， 并 且 生成 的 模型 可 以 在 不 重新 计算 的 情况 下 对 新 数据 打分 ， 
因此 它 得 到 了 广泛 的 使 用 。 








5.3.8 拓展 阅读 


。 逻辑 回归 的 标准 参考 书 ， 是 大 David Hosmer、Stanley Lemeshow 和 Rodney Sturdivant 合 
著 的 Applied Linear Regression (3rd ed.) 。 

。 Joseph Hilbe 撰写 的 两 本 书 也 广 受 欢迎 。 一 本 是 内 容 非 常 全 面 的 Logistic Regression Models， 
另 一 本 是 精炼 版 的 Practical Guide to Logistic Regression 。 

。 Trevor Hastie、Robert Tibshirani 和 Jerome Friedman 合 著 的 《统计 学 习 基 础 (第 2 版 )》， 
以 及 Gareth James、Daniela Witten、Trevor Hastie 和 Robert Tibshirani 合 著 的 《统计 学 
习 导 论 : 基于 R 应 用 》。 两 本 书 都 有 一 节 的 内 容 介绍 逻 辑 回 归 。 

。 在 Galit Shmueli、Peter Bruce 和 Nitin Patel 合 著 的 Data Mining for Business Analytics 一 
书 中 ， 有 一 章 专门 介绍 逻辑 回归 。 


5.4 评估 分 类 模型 

人 们 往往 会 在 预测 建 模 时 尝试 多 个 不 同 的 模型 ， 将 每 个 模型 应 用 于 一 个 保留 样本 (也 称 测 
试 样本 或 验证 样本 )， 并 评估 模型 的 性 能 。 从 本 质 上 看 ， 这 就 是 要 查看 哪个 模型 会 做 出 最 
准确 的 预测 。 



































主要 术语 
正确 率 (accuracy) 
正确 分 类 的 百分比 (或 比例 )。 
混淆 矩阵 
按 预测 分 类 和 实际 分 类 情况 对 记录 分 别 计 数 ， 将 计数 结果 以 表格 形式 显示 。 例 如 ， 
对 于 二 元 变量 ， 使 用 的 是 2x2 的 表格 。 
灵敏 度 
在 预测 结果 中 ，1 被 正确 分 类 的 百分比 (或 比例 )。 
同义词 : 召回 率 (recall) 
特异 性 
在 预测 结果 中 ，0 被 正确 分 类 的 百分比 (或 比例 ) 。 
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准确 率 〈precision) 
预测 结果 为 1、 真实 值 也 为 1 的 百分比 (或 比例 )。 


ROC 曲线 
灵感 度 与 特异 性 的 绘图 。 


提升 (lift) 
在 不 同 截止 概率 的 情况 下 ， 衡 量 模型 在 识别 (相对 军 见 的 ) 1 上 的 有 效 性 。 











测量 模型 分 类 性 能 的 一 种 简单 方法 是 ， 计 算 预 测 正确 的 比例 。 
在 大 多 数 分 类 算法 中 ， 每 个 预测 类 都 指定 了 一 个 “结果 为 1 的 估计 概率 ”。; 默认 的 决策 点 
或 截止 值 一 般 采 用 0.5 或 50%。 如 果 概 率 大 于 0.5， 那 么 该 情况 就 被 分 类 为 “1”;， 否则 ， 
分 类 为 “0”。 另 一 种 默认 的 截止 值 是 使 用 数据 中 出 现 值 为 1 的 概率 。 
正确 率 只 是 一 种 对 总 体 误 差 的 度量 : 
( 真 阳性 样本 数 + 真 阴性 样本 数 ) 
样本 总 
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5.4.1 混淆 矩阵 

混淆 和 矩阵 是 分 类 性 能 度量 的 关键 所 在 。 混 清和 矩阵 是 一 种 表格 ， 其 中 显示 了 按 响 应 类 型 分 
类 的 正确 预测 数 和 错误 预测 数 。R 中 有 多 个 可 以 计算 混淆 矩阵 的 软件 包 ， 但 是 对 于 二 元 变 
量 ， 采 用 手动 计算 更 便捷 。 

下 面 以 tlogistic_gan 模型 为 例 介 绍 混淆 矩阵 。 该 模型 是 使 用 一 个 平衡 数据 集训 练 的 ， 即 其 
中 拖欠 贷款 和 还 清 贷款 的 数量 相同 ， 如 图 5-4 所 示 。 遵 循 惯 例 ，Y = 1 表示 感 兴趣 的 事件 ， 
在 本 例 中 是 拖欠 贷款 ;Y= 0 表示 负 事件 (或 正常 事件 ) ， 在 本 例 中 是 贷款 还 请 。 对 于 使 用 
整个 训练 集 ( 即 非 平衡 数据 ) 训练 得 到 的 Logistic_gan 模型 ， 下 面 的 R 代码 计算 了 其 混淆 
和 矩阵 。 


pred <- predict(logistic gam, newdata=train_set) 

pred_y <- as.numeric(pred > 0) 

true_y <- as.numeric(train_set$outcome=='default') 

true_pos <- (true_y==1) & (pred_y==1) 

true_neg <- (true y==0) & (pred_y==0) 

false_pos <- (true y==0) & (pred_y==1) 

faLse_neg <- (true y==1) & (pred_y==0) 

conf_mat <- matrix(c(sum(true_pos), sum(false_pos), 
sum(false_neg), sum(true_ neg)), 2, 2) 

colnames(conf_mat) <- c('Yhat = 1', 'Yhat = 0') 

rownames(conf_mat) <- c('Y=1', 'Y=0') 

conf_mat 



























































注 3; 并 非 每 种 方法 都 能 给 出 对 概率 的 无 偏 估计 。 在 大 多 数 情 况 下 ， 如 果 一 个 方法 所 给 出 的 排名 等 价 于 无 偏 
概率 估计 所 产生 的 排名 ， 该 方法 就 完全 适用 。 这 在 功能 上 等 价 于 使 用 截止 值 的 方法 。 
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在 输出 中 ， 预 测 结果 按 列 给 出 ， 而 真实 结果 按 行 给 出 。 我 们 可 以 看 到 ， 和 矩阵 的 对 角 元 素 显示 
了 正确 预测 数 ， 而 非 对 角 线 元 素 则 显示 了 错误 预测 数 。 在 本 例 中 ， 模 型 正确 地 预测 了 14 295 
个 贷款 拖欠 ， 但 有 8376 个 贷款 拖欠 被 错误 地 预测 为 已 经 还 清 。 


图 5-5 显示 了 二 元 响应 了 的 混淆 矩阵 ， 以 及 混 清 矩阵 与 各 种 度量 之 间 的 关系 (更 多 关于 度 
量 的 信息 ， 参 见 5.4.3 市 )。 与 上 面 给 出 的 贷款 数据 的 例子 一 样 ， 实 际 响应 是 按 行 显示 的 ， 
而 预测 响应 是 按 列 显 示 的 (我 们 可 能 也 会 看 到 ， 有 一 些 混淆 矩阵 的 显示 与 此 相反 )。 对 角 
线 上 的 方 格 ( 即 左上 角 和 右 下 角 的 方 格 ) 显示 了 预测 值 y 是 否 正确 地 预测 了 响应 。 甚 中， 


































































































假 阳 性 率 是 我 们 前 面 并 未 明确 提 及 的 一 个 重要 指标 ， 它 是 准确 率 的 镜像 。 当 1 很 罕见 时 ， 
假 阳性 (FEP) 与 所 有 预测 阳性 之 间 的 比率 可 能 会 很 高 ， 导 致 无 法 直观 给 出 预测 为 1 但 很 可 
能 是 0 的 情况 。 一 些 广 泛 使 用 的 医学 盘 查 检 验 ， 例 如 乳房 X 光 造影 ， 就 受到 了 此 问题 的 困 
扰 。 由 于 病例 相对 稀少 ， 阳 性 检测 结果 很 可 能 并 不 意味 着 是 乳腺 癌 。 这 会 导致 公众 过 多 的 
困惑 。 
预测 响应 
p=1 
. | 召回 率 (灵敏 度 ) 
全 
发 生 率 准确 率 正确 率 
=1/ 总 体 TP/$=1) (TP+TN)/ 总 体 











图 5-5: 二 元 响应 的 混淆 矩阵 与 各 种 度量 。 其 中 ,“True Positive”(TP) 表示 真 阳性 ,“False 
Positive”(FP) 表示 假 阳 性 ,“False Negative”(FN) 表示 假 阴性 “True Negative”(TN) 


表示 真 阴性 


5.4.2 稀有 类 问题 


在 很 多 情况 下 ， 要 预测 的 类 中 存在 着 不 平衡 的 情况 ， 





其 中 一 个 类 比 另 一 个 类 更 普遍 ， 例 


如 ， 合 法 保险 索赔 相对 于 坎 诈 保险 索赔 ， 


浏览 购物 网 站 的 用 户 相 对 于 在 网 站 上 实际 购物 的 


用 户 。 但 是 ， 欺 诈 保 险 索 赔 这 样 的 罕见 类 ， 往 往 是 我 们 在 分 类 中 更 感 兴 趣 的 类 ， 一 般 被 指 





定 为 1， 以 区 别 于 普遍 存在 的 0。 在 典型 的 应 用 场景 中 ， 
为 将 1 误 分 类 为 0 要 比 将 0 误 分 类 为 1 的 代价 更 大 。 例 女 





9， 正确 识别 欺诈 保险 索赔 ， 


我 们 用 1 表示 更 重要 的 情况 ， 


人 
本 


因 





使 


保险 公司 免 受 数 千 美 元 的 损失 。 另 外 ， 正 确 识别 非 欺 诈 性 索赔 ， 

















手工 审核 《如果 索赔 被 标 为 “欺诈 性 ”的 ， 你 就 会 这 样 做 ) 。 
在 此 类 情况 下 ， 最 准确 的 分 类 模型 应 该 将 所 有 的 内 容 分 类 为 0 


你 就 不 必 更 加 仔细 地 进行 


， 除 非 各 个 类 是 非常 易于 分 
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离 的 。 例 如 ， 如 果 只 有 0.1% 的 网 店 浏览 者 最 终 会 选择 购买 ， 那 么 预测 每 个 浏览 者 不 购买 
就 离开 的 模型 ， 甚 正确 率 可 以 达到 99.9%。 但 是 ， 这 样 的 模型 并 没什么 用 处 。 相 反 ， 我 们 
会 对 一 个 能 从 浏览 者 中 挑选 出 购买 者 的 模型 非常 满意 ， 尽 管 该 模型 可 能 总 体 上 正确 率 并 不 
高 ， 会 将 一 些 非 购买 者 错误 分 类 。 


5.4.3 ”准确 率 、 召 回 率 和 特异 ' 


除了 正确 率 ， 我 们 常常 还 会 使 用 其 他 一 些 更 精细 的 度量 去 评估 分 类 模型 。 一 些 度量 在 统计 
学 尤其 是 生物 统计 学 中 具有 悠久 的 历史 ， 可 以 描述 诊断 检验 的 预期 性 能 。 其 中 ， 准 确 率 测 
量 了 预测 阳性 结果 的 正确 率 ， 如 图 5-5 所 示 。 


















































>TP 
TP+2FP 


召回 率 也 称 为 灵敏 度 ， 它 衡量 了 模型 预测 阳性 结果 的 能 力 ， 即 模型 正确 识别 1 的 比例 (如 
图 5-5 所 示 )。“ 灵敏度” 这 一 术语 多 用 于 生物 统计 学 和 医学 诊断 。 而 在 机 器 学 习 领 域 中 ， 
使 用 更 多 的 是 “召回 率 " 。 下 面 是 召回 率 的 计算 公式 。 


准确 率 = 


























>TP 
TP+ZFN 


还 有 一 个 度量 是 特异 性 (specificity) ， 它 测量 了 模型 预测 阴性 结果 的 能 


召回 率 - 




















>TN 
ETN+ YFN 
# 准确 率 
conf_mat[1,1]/sum(conf_mat[ ,1]) 
# 召回 率 
conf_mat[1,1]/sum(conf_mat[1,]) 
# 特异 性 








conf_mat[2,2]/sun(conf_mat[2,]) 


5.4.4 ROC 曲 线 


从 上 市 的 定义 中 可 以 看 出 ， 在 召回 率 和 特异 性 之 间 存 在 着 权衡 。 捕 获 更 多 的 1， 通 常 意味 
着 有 更 多 的 0 被 错误 地 分 类 为 1。 一 个 理想 的 分 类 器 ， 应 该 在 对 1 的 分 类 上 做 得 很 好 ， 不 
会 将 更 多 的 0 分 类 为 1。 


获 这 种 权衡 的 度量 ， 被 称 为 “ 受 试 者 工作 特征 ”曲线 ， 通 常 简称 为 ROC 曲线 。ROC 曲 
线 在 y 轴 上 绘制 召回 率 (灵敏 度 ) ， 在 x 轴 上 绘制 特异 性 。* 当 我 们 更 改 了 分 类 记录 的 截止 
值 时 ，ROC 曲线 能 显示 出 召回 率 和 特异 性 之 间 的 权衡 。 灵 敏 度 (召回 率 ) 绘制 在 y 轴 上 ， 
x 轴 的 标记 可 能 有 两 种 形式 : 














































































































注 4: ROC 曲线 在 第 二 次 世界 大 战 期 间 被 首次 使 用 ,用 于 描述 雷达 接收 站 的 性 能 。 它 的 任务 是 正确 地 识别 (分 
类 ) 雷达 反射 信号 ， 并 将 前 来 的 飞机 情况 报警 给 防守 部 队 。 























。 特异 性 绘制 在 xz 轴 上 ， 左 边 为 1， 右边 为 0; 
。 特异 性 绘制 在 x 轴 上 ， 左 边 为 0， 右边 为 1。 


无 论 采 用 哪 种 方式 ，ROC 曲线 看 上 去 都 是 相同 的 。 计 算 ROC 曲线 的 步骤 如 下 。 


(1) 按 1 的 预测 概率 对 记录 排序 ， 概 率 最 大 的 记录 在 前 ， 概 率 最 小 的 记录 在 后 。 
(2) 根 据 排序 的 记录 ， 计 算 累 积 特异 性 和 召回 率 。 


在 RR 语言 中 ,计算 ROC 曲线 很 简单 。 下 面 的 代码 计算 了 贷款 数据 的 ROC 曲线 : 


idx <- order(-pred) 
recall <- cumsum(true_y[idx]==1)/sum(true_y==1) 
specificity <- (sum(true y==0) - cumsum(true_y[idx]==0))/sum(true_y==0) 
roc_df <- data.frame(recall = recall, specificity = specificity) 
ggplot(roc_df, aes(x=specificity, y=recall)) + 

geom line(color='blue') + 

scale_x_reverse(expand=c(0, 0)) + 

scale y_continuous(expand=c(0, 0)) + 

geom_ line(data=data.frame(x=(0:100)/100), aes(x=x, y=1-x), 

linetype='dotted', color='red') 


生成 的 绘图 如 图 5-6 所 示 。 图 中 虚线 对 角 线 对 应 的 是 一 个 并 不 优 于 随机 概率 的 分 类 器 。 对 
于 非常 有 效 的 分 类 器 (或 医疗 中 非常 有 效 的 诊断 测试 )，ROC 曲线 将 偏向 图 的 左上 角 。 这 
样 的 分 类 器 能 够 正确 地 识别 大 量 的 1， 不 会 将 很 多 0 误 分 类 为 1。 对 于 该 模型 ， 如 果 我 们 


Pp 


希望 分 类 器 具有 不 低 于 50% 的 特异 性 ， 那 么 召回 率 大 约 为 75%。 
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5-6: 贷款 数据 的 ROC 曲线 
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准确 率 - 召回 率 曲线 


除了 ROC 曲线 之 外 ， 准 确 率 - 召回 率 (PR) 曲线 也 很 有 启发 意义 。PR 曲线 
的 计算 方式 与 ROC 曲线 类 似 ， 只 是 数据 按 可 能 性 从 小 到 大 进行 排序 ， 并 且 
计算 的 统计 量 是 累积 准确 率 和 召回 率 。PR 曲线 对 于 评估 具有 高 度 不 平衡 结 
果 的 数据 非常 有 用 。 





5.4.5 AUC 


ROC 曲线 是 一 种 十 分 有 用 的 图 形 工具 ， 但 并 非 分 类 器 性 能 的 一 种 度量 。 然 而 ， 我 们 可 以 使 
用 ROC 曲线 生成 曲线 下 面积 (AUC) 度量 。AUC 就 是 ROC 曲线 下 的 总 面积 。AUC 的 值 
越 天 ， 分 类 器 越 有 效 。 如 果 AUC 为 1， 表 示 一 个 完美 的 分 类 器 : 将 所 有 1 正确 分 类 ， 且 没 
有 任何 0 被 误 分 类 为 1。 


一 个 完全 无 效 的 分 类 器 在 ROC 中 显示 为 对 角 线 ， 它 的 AUC 为 0.5。 


图 5-7 显示 了 贷款 数据 模型 的 ROC 曲线 下 面积 。 可 以 使 用 数值 积分 计算 AUC 的 值 。 


sum(roc_dfsrecaLL[-1] * diff(1-roc df$specificity)) 
[1] 0.5924072 


由 此 可 见 ， 贷 款 数据 模型 的 AUC 约 为 0.59， 对 应 于 一 个 相对 较 弱 的 分 类 器 。 








recall 








0.75 0.50 0.25 0.00 
specificity 











图 5-7: 贷款 数据 的 ROC 曲线 下 面积 





假 阳性 率 的 困惑 

假 阳 性 率 和 假 阴 性 率 常 与 特异 性 或 灵敏 度 相 混 淆 。 即 便 是 在 一 些 已 发 表 的 著 
作 和 软件 中 ， 也 会 出 现 这 样 的 错误 ! 有 时 ， 假 阳性 率 被 定义 为 将 真 阴性 检验 
为 阳性 的 比例 。 在 很 多 情况 下 ， 例 如 在 网 络 攻击 检测 中 ， 该 术语 用 于 指 阳 性 
信号 为 真 阴性 的 比例 。 

















5.4.6 ”提升 


相对 于 正确 率 而 言 ， AUC 度量 无 疑 是 一 种 改进 ， 它 可 以 评估 一 个 分 类 器 是 否 很 好 地 处 理 了 
整体 正确 率 与 识别 更 重要 的 1 这 项 需求 之 间 的 权衡 。 但 是 ，AUC 并 未 完全 解决 稀有 类 的 问 
题 。 在 稀有 类 问题 中 ， 为 了 避免 将 所 有 的 记录 分 类 为 0， 我 们 需要 将 模型 的 截止 概率 降 至 
0.5 以 下 。 这 时 ， 如 果 要 将 一 个 记录 分 类 为 1， 可 能 需要 0.4、0.3 或 更 低 的 截止 概率 。 事 实 
上 ， 我 们 最 终 过 度 识别 了 1， 这 表明 这 些 数据 更 加 重要 。 


更 改 截止 值 会 增加 捕获 1 的 机 会 ， 然 而 代价 就 是 将 更 多 的 0 误 分 类 为 1。 那么 如 何 确定 最 
优 的 截止 值 ? 


我 们 可 以 使 用 提升 (lift) 这 一 概念 来 解答 。 我 们 考虑 将 记录 按 预 测 为 1 的 概率 进行 排序 。 
如 果 算 法 使 用 了 分 类 为 1 的 概率 来 排序 前 10% 的 记录 ， 那 么 相 比 于 使 用 简单 盲目 选择 的 基 
准 ， 算 法 的 效果 可 以 提升 多 少 ? 如 果 在 排序 前 10% 的 记录 上 可 以 获得 0.3% 的 响应 ， 而 使 
用 在 整体 范围 内 随机 挑选 的 记录 可 以 得 到 0.1% 的 响应 ， 那 么 我 们 称 算法 在 排序 前 10% 上 
的 提升 为 3， 也 可 以 称 增益 (gain) 为 3。 提 升 图 (或 增益 表 ) 定量 地 反映 了 整个 数据 范围 
内 的 提升 情况 。 该 图 能 够 以 十 分 位 数 为 单位 生成 ， 也 可 以 根据 整个 数据 范围 连续 生成 。 
要 计算 提升 图 ， 首 先 要 生成 累积 增益 图 。 在 该 图 中 , y 轴 显 示 的 是 召回 率 , x 轴 显 示 的 是 记 
录 数 。 提 升 曲线 (lift curve) 是 累积 增益 与 随机 选择 (对 应 于 对 角 线 ) 的 比率 。 十 分 位 数 
增益 图 是 预测 建 模 中 历史 最 悠久 的 技术 之 一 ， 可 以 追溯 到 互联 网 商务 出 现 之 前 ， 尤 其 受到 
直 邮 专业 人 士 的 欢迎 。 如 果 无 差别 地 使 用 直 邮 ， 那 么 直 邮 将 是 一 种 费用 非常 高 兄 的 广告 方 
式 。 这 样 ， 广 告 商 需要 使 用 一 种 预测 模型 (在 早期 是 非常 简单 的 模型 )， 识 别 最 有 可 能 产 
生 购 买 的 潜在 客户 。 

抬升 〈uplift) 

有 时 ， 我 们 使 用 抬升 表示 提升 。 在 某 些 特定 的 场景 中 ， 抬 升 还 有 另 一 层 含 
义 。 例 如 ， 在 做 A/B 测试 时 ， 预 测 模 型 以 处 理 A 或 处 理 B 为 预测 因子 ， 这 
时 抬升 指 的 是 对 单个 情况 分 别 使 用 处 理 A 和 使 用 处 理 B 时 ， 预 测 响 应 的 提 
高 情况 。 在 计算 抬升 时 ， 首 先 要 将 预测 因子 设 为 处 理 A， 对 单个 情况 打分 ， 
然后 再 将 预测 因子 切换 成 处 理 B， 再 次 打分 。 营 销 人 员 和 政治 竞选 顾问 使 用 
这 种 方法 来 确定 应 该 对 客户 或 选民 使 用 两 种 处 理 中 的 哪 一 种 。 
































































































































我 们 可 以 使 用 提升 曲线 查看 在 不 同 的 概率 截止 值 下 将 记录 分 类 为 1 的 结果 。 提 升 曲 线 可 作 
为 设置 适当 截止 值 的 一 个 中 间 步 又 。 例 如 ， 税 务 机 关 在 做 税务 审计 时 ， 可 能 资源 有 限 ， 进 
而 希望 能 将 有 限 的 资源 用 于 发 现 最 可 能 存在 的 偷税 漏税 情况 。 考 虑 到 资源 的 限制 ,税务 机 
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关 会 使 用 提升 图 ， 绘 制 所 选 定 的 审计 报税 单 和 剩余 报税 单 之 间 的 分 割 线 。 











本 节 要 点 
。 正确 率 ( 即 预测 分 类 正确 的 百分比 ) 可 以 用 于 评估 模型 ， 但 只 是 评估 的 第 一 步 。 
。 其 他 度量 (召回 率 、 特 异性 、 准 确 率 ) 侧重 于 更 具体 的 性 能 特征 。 例 如 ， 召 回 率 测 
定 了 模型 正确 识别 1 的 良好 程度 。 
。 AUC (ROC 曲线 下 的 面积 ) 是 对 模型 区 分 1 与 0 能 力 的 一 种 常用 度量 。 
。 提升 衡量 了 一 个 模型 在 识别 1] 上 的 有 效 性 ， 并 且 常 常 是 按 十 分 位 数 逐 个 计算 的 ， 从 
分 类 为 1 可 能 性 最 大 之 处 开始 。 











5.4.7 ”拓展 阅读 

评测 和 评估 通常 在 特定 模型 的 上 下 文中 介绍 ， 例 如 天 最 近邻 或 决策 树 。 下 面 三 本 书 用 专门 

的 章节 介绍 了 这 部 分 内 容 。 

。 JIan Whitten、Elbe Frank 和 Mark Hall 合 闭 的 《数据 挖掘 : 实用 机 器 学 习 工 具 与 技术 》。 

。 Benjamin Baumer、Daniel Kaplan 和 Nicholas Horton 合 著 的 Modern Data Science with R。 

。 Galit Shmueli、Peter Bruce 和 Nitin Patel 合 著 的 Data Mining for Business Analytics 。 另 外 ， 
该 书 有 专门 适用 于 R、Excel 和 JMP 的 版 本 。 

下 面 这 本 书 对 交叉 验证 和 重 抽样 做 了 很 好 的 介绍 : 

。 Gareth James 等 人 合 著 的 《统计 学 习 导 论 : 基于 R 应 用 》。 


pe = Ws 
5.5 不 平衡 数据 的 处 理 策 略 
一 市 介绍 了 如 何 使 用 一 些 指标 (不 只 是 简单 的 正确 率 ) 去 评估 分 类 模型 。 这 些 指标 同样 
也 适用 于 不 平衡 数据 。 在 不 平衡 数据 中 ， 我 们 感 兴趣 的 结果 (例如 网 站 上 的 购买 、 保 险 欺 
诈 等 ) 是 罕见 情况 。 本 市 将 介绍 用 于 改进 不 平衡 数据 的 预测 建 模 性 能 的 其 他 策略 。 






































主要 术语 
欠 采 样 
在 分 类 模型 中 ， 使 用 更 少 的 多 数 类 记录 。 


同义词 : 下 采样 
过 采样 
在 分 类 模型 中 ， 更 多 地 使 用 稀有 类 记录 。 必 要 时 可 以 使 用 自助 法 。 
同义词 : 上 采样 
上 权重 、 下 权重 
在 模型 中 ， 对 稀有 类 赋予 更 大 的 权重 ， 对 多 数 类 赋予 更 小 的 权重 。 











数据 生成 

类 似 于 自助 法 ， 只 是 每 个 新 的 自助 记录 与 原 记 录 略 有 不 同 。 
Z 分 数 

对 结果 做 归 一 化 所 生成 的 值 。 
人 

在 最 近邻 计算 中 使 用 的 近邻 个 数 。 








5.5.1 欠 采 样 


如 果 有 是 够 多 的 数据 ， 就 像 贷款 数据 的 例子 中 那样 ， 为 了 使 要 建 模 的 数据 在 0 和 1 之 间 取 
得 平衡 ， 一 种 解决 方法 是 对 多 数 类 做 欠 采 样 (或 下 采样 )。 欠 采样 的 基本 思想 是 ， 认 为 多 
数 类 的 数据 中 存在 很 多 元 余 的 记录 。 处 理 规 模 更 小 、 更 平衡 的 数据 集 ， 将 有 利于 改进 模型 
的 性 能 ， 准 备 数据 以 及 探索 和 实验 模型 也 会 更 容易 。 

那么 多 少数 据 是 足够 多 的 ?这 取决 于 应 用 ， 但 一 般 来 说 ， 如 果 稀 有 类 具有 上 万 条 记录 ， 就 
是 足够 多 的 。1 越 容易 从 0 中 区 分 开 来 ， 那 么 所 需 的 数据 就 越 少 。 


5.3 节 中 分 析 的 贷款 数据 就 是 基于 一 个 平衡 的 训练 集 ， 其 中 有 一 半 的 贷款 被 还 清 ， 而 另 一 
半 贷 款 被 拖欠 。 预 测 值 也 给 出 了 类 似 的 结果 ， 有 一 半 预 测 的 概率 小 于 0.5， 另 一 半 预 测 的 
概率 大 于 0.5。 但 是 在 完整 的 数据 集中 ， 只 有 约 18.9% 的 贷款 被 拖欠 。 

mean(loan_data$outcome == "default") 

[1] 0.5 

mean(full_train_set$outcome=='default') 

[1] 0.1889455 


如 果 我 们 使 用 整个 数据 集 去 训练 模型 ， 会 发 生 什么 情况 ? 


full_model <- glm(outcome ~ payment_inc_ratio + purpose_+ 
home_ + emp_len + dti + revol_ bal + revol util, 
data=train_set, family='binomial') 

pred <- predict(full_model) 

mean(pred > 0) 

[1] 0.003942094 


可 以 看 到 ， 只 有 约 0.39% 的 贷款 被 预测 为 拖欠 ， 或 着 说 ， 预 测 结果 低 于 预期 值 的 /48。 由 
于 模型 平等 地 使 用 全 部 数据 进行 训练 ， 还 清 贷款 的 情况 压制 了 拖欠 贷款 的 情况 。 直 观 地 考 
虑 ， 由 于 存在 非常 多 的 非 拖 欠 贷 款 数 据 ， 并 且 预 测 数 据 中 不 可 避免 地 存在 变异 性 ， 这 意味 
着 即便 是 对 于 拖欠 的 贷款 ， 该 模型 也 可 能 会 随机 地 发 现 一 些 非常 类 似 的 非 拖 欠 贷 款 。 在 使 
用 平衡 样本 时 ， 约 50% 的 贷款 被 预测 为 拖欠 。 


5.5.2 ”过 采样 以 及 上 权重 和 下 权重 


欠 采 样 中 并 未 使 用 所 有 的 数据 ， 而 是 丢弃 了 一 些 数 据 ， 这 是 导致 欠 采 样 方法 饱 受 批评 的 一 个 
方面 。 如 果 我 们 面 对 的 是 一 个 规模 较 小 的 数据 集 ， 其 中 稀有 类 包含 数 百 或 数 千 条 记录 ， 那 么 
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对 多 数 类 做 欠 采 样 就 会 存在 丢弃 一 些 有 用 信息 的 风险 。 在 这 种 情况 下 ， 我 们 不 应 对 多 数 类 做 
欠 采 样 ， 而 应 使 用 有 放 回 的 自助 法 去 抽取 更 多 的 数据 ， 实 现 对 稀有 类 的 过 采样 (上 采样 )。 
我 们 可 以 通过 对 数据 加 权 得 到 类 似 的 效果 。 很 多 分 类 算法 采用 权重 参数 ， 让 你 可 以 增 减 数 
据 的 权重 。 例 如 ， 下 面 的 命令 使 用 gtm 函数 的 weight 参数 ， 为 贷款 数据 添加 了 权重 向 量 。 
wt <- ifelse(full_train_ set$outcome=='default', 
1/mean(full_train_set$outcome == 'default'), 1) 
full_model <- glm(outcome ~ payment_iinc_ratio + purpose_+ 
home_ + emp_len + dti + revol bal + revol util, 
data=full_train_set, weight=wt, family='quasibinomial') 
pred <- predict(full_model) 


mean(pred > 0) 
[1] 0.5767208 


其 中 ， 贷 款 拖欠 的 权重 设 为 ， 其 中 p 是 贷款 拖欠 的 概率 。 非 拖欠 贷款 的 权重 设 为 1。 拖 
Pp 

欠 贷 款 和 非 拖 欠 贷 款 的 权重 之 和 大 致 相等 。 现 在 ,预测 值 的 均值 是 57.7%， 不 再 是 0.39%。 

注意 ,添加 权重 是 对 稀有 类 做 过 采样 和 对 多 数 类 做 欠 采 样 的 一 种 赫 代 方 法 。 

修改 损失 函数 

许多 分 类 和 回归 算法 的 优化 目标 是 某 一 标准 或 损失 函数 。 例 如 ， 逻 辑 回归 的 目 

标 是 尽量 最 小 化 偏差 。 在 一 些 文献 中 ， 研 究 人 员 建 议 修改 损失 国 数 ， 以 避免 发 

生 由 稀有 类 导致 的 问题 。 这 在 实践 中 是 很 难 做 到 的 ， 因 为 分 类 算法 可 能 会 非常 

复杂 ， 以 至 于 难以 对 算法 本 身 做 出 修改 。 加 权 是 一 种 更 改 损 失 函 数 的 简单 方 

法 。 使 用 较 低 的 权重 ， 可 以 降低 记录 误差 的 影响 ， 有 利于 更 高 权重 的 记录 。 

































































5.5.3 数据 生成 


自助 法 过 采样 (参见 5.5.2 节 ) 有 一 种 变 体 ， 就 是 通过 打 乱 现 有 记录 来 创建 新 记录 的 数据 
生成 方法 。 该 方法 背后 的 理念 是 ， 由 于 我 们 只 观测 到 有 限 组 实例 ， 所 以 算法 在 构建 分 类 
“规则 ”时 并 未 使 用 足够 丰富 的 信息 。 通 过 创建 与 现 有 记录 相似 但 又 不 完全 相同 的 新 记录 ， 
可 以 使 算法 有 机 会 去 学 习 更 强大 的 规则 集 。 该 理念 类 似 于 Boosting 和 Bagging 等 集成 统计 
模型 的 思想 (参见 第 6 章 )。 

SMOTE 算法 的 发 表 进一步 推动 了 该 理念 。SMOTE 是 Synthetic Minority Oversampling 
Technique (合成 少数 类 过 采样 技术 ) 的 缩写 形式 。 该 算法 找 出 与 过 采样 记录 相似 的 记录 
(参见 6.1 节 )， 并 对 原始 记录 及 其 相 邻 的 记录 随机 加 权 后 取 平 均 ， 生 成 一 个 合成 记录 ， 记 
录 中 的 权重 是 根据 每 个 预测 因子 单独 生成 的 。 创 建 的 合成 过 采样 记录 的 数量 ， 取 决 于 使 数 
据 集 在 结果 类 上 取得 大 致 平衡 所 需 的 过 采样 率 。 

R 语言 中 提供 了 多 种 实现 SMOTE 算法 的 软件 包 。 其 中 ，unbalance 软件 包 是 最 全 面 的 不 平 
衡 数 据 处 理 软件 包 。 该 软件 包 提 供 了 多 种 技术 ， 包 括 一 种 选择 最 佳 方法 的 “竞争 ”算法 。 
其 实 ，SMOTE 算法 十 分 简单 ， 我 们 可 以 使 用 R 中 的 knn 软件 包 直 接 实现 它 。 



























































5.5.4 基于 代价 的 分 类 


在 实践 中 ， 正 确 率 和 AUC 是 代价 最 低 的 分 类 规则 。 通 常 ， 可 以 为 假 阳 性 与 假 阴性 的 比例 
指定 一 个 估计 代价 。 在 确定 分 类 1 和 0 的 最 佳 截 止 值 中 ， 应 该 考虑 这 一 代价 。 例 如 ， 假 设 
新 贷款 拖欠 的 预期 成 本 是 C， 而 还 请 贷款 的 预期 收益 是 R。 那 么 贷款 的 预期 收益 是 : 
预期 收益 =P(Y=0)xR+P(Y=1)xC 

这 里 ， 我 们 并 非 将 贷款 简单 地 标记 为 “拖欠 ”或 “ 偿 清 ”"， 也 并 非 要 确定 贷款 拖欠 的 概率 ， 
更 合理 的 做 法 是 确定 贷款 是 否 具 有 正 预期 收益 。 要 确定 预期 的 利润 情况 ， 预 测 拖欠 概率 只 
是 一 个 中 间 步 又 ， 它 必须 与 贷款 总 额 一 并 考虑 。 而 预期 的 利润 才 是 企业 的 最 终 规划 度量 。 
例如 ， 相 比 于 预测 拖欠 概率 稍 高 的 大 额 贷款 ， 较 小 数额 的 贷款 可 能 会 通过 。 


5.5.5 ”探索 预测 值 


AUC 之 类 的 单一 指标 ， 并 不 能 捕获 在 某 一 情况 下 一 个 模型 适用 性 的 所 有 方面 。 图 5-8 显示 
了 四 种 不 同 模型 的 决策 规则 。 这 些 模型 分 别 为 : 线性 判别 分 析 、 逻 辑 线性 回归 、 使 用 广义 
加 性 模型 拟 合 的 逻辑 回归 以 及 树 模型 (参见 6.2 节 )， 它 们 都 仅 使 用 了 borrower_score 和 
payment_inc_ratio 这 两 个 预测 变量 去 拟 合 贷款 数据 。 图 5-8 中 ， 线 段 左 上 角 的 区 域 表示 贷 
款 拖欠 预测 值 。 我 们 可 以 看 出 ， 线 性 判别 分 析 和 逻辑 线性 回归 给 出 了 几乎 相同 的 结果 ， 而 
树 模 型 给 出 了 形状 最 曲折 的 规则 。 事 实 上 ， 在 一 些 情况 下 ， 增 加 借款 者 的 分 值 会 使 预测 值 
从 “ 偿 清 ” 转 为 “拖欠 ”1 最 后 ， 使 用 广义 加 性 模型 拟 合 的 逻辑 回归 是 树 模 型 和 线性 模型 
这 两 者 的 折 中 。 
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方法 

一 一 广义 加 性 模型 
- - - 线性 判别 分 析 
一 一 逻辑 线性 回归 
一 - 树 模型 

















支出 与 收入 的 比率 














T T T T 
0.4 0.5 0.6 0.7 


借款 者 的 信用 评分 











5-8: 对 比 四 种 不 同方 法 的 分 类 规则 





在 较 高 的 维度 上 ， 不 容易 实现 预测 规则 的 可 视 化 。 对 于 广义 加 性 模型 和 树 模 型 ， 这 些 规则 
的 区 域 也 不 易于 生成 。 


但 无 论 如 何 ， 对 预测 值 做 探索 性 分 析 终 归 是 有 必要 的 。 














本 节 要 点 

。 分 类 算法 在 高 度 不 平衡 数据 (其 中 感 兴趣 的 结果 “1” 十 分 罕见 ) 中 会 存在 问题 。 

。 平衡 训练 数据 的 一 种 策略 是 ， 对 多 数 类 做 欠 采 样 ， 或 者 对 稀有 类 做 过 采样 。 

。 如 果 使 用 了 数据 中 所 有 的 “1” 依 然 不 够 ， 可 以 对 稀有 类 做 自助 法 ， 或 使 用 SMOTE 
算法 创建 与 稀有 类 相似 的 合成 数据 。 

。 不 平衡 数据 通常 表明 正确 的 分 类 ( 即 “1”) 具有 更 高 的 价值 。 我 们 应 将 这 种 值 的 比 
率 纳 入 到 评估 度量 中 。 











5.5.6 ”拓展 阅读 
。 Data Science for Business 一 书 的 作者 Tom Fawcett 撰写 了 一 篇 介绍 不 平衡 类 的 优秀 文章 


“Learning from Imbalanced Classes”。 

。 SMOTE 算 法 的 更 多 细节 ,参见 Nitesh V. Chawla、 Kevin W. Bowyer、Lawrence O. Hall 和 W. 
Philip Kegelmeyer 合 著 的 文章 “SMOTE: Synthetic Minority Over-sampling Technique”。 
该 文 发 表 在 Journal of 4rtificial Intelligence Research 16 (2002): 321-357 上 。 

。 也 可 以 阅读 Analytics Vidya 网 站 的 内 容 团队 于 2016 年 3 月 28 日 发 布 的 文章 “Practical 


Guide to deal with Imbalanced Classification Problems in R”。 
5.6 ”小结 


分 类 是 预测 记录 属于 两 个 (或 一 组 ) 分 类 中 哪 一 个 的 过 程 ， 它 是 预测 分 析 的 基础 。 贷 款 是 
否 会 拖欠 ?贷款 是 否 会 预先 还 清 ? Web 访问 者 是 否 会 点 击 一 个 链接 ? Web 访问 者 是 否 会 
网 购 ? 一 份 保 险 索 赔 是 否 存在 欺诈 ?在 分 类 问题 中 ,通常 有 一 个 类 是 我 们 感 兴趣 的 ， 如 
欺诈 性 保险 索赔 。 在 二 元 分 类 中 ， 这 个 类 指定 为 “1”"， 而 更 普遍 存在 的 男 一 个 类 则 指定 
为 “0”。 分 类 过 程 的 关键 通常 在 于 估计 倾向 性 分 值 (propensity score) ， 即 一 个 记录 属于 感 
兴趣 类 的 概率 。 一 种 常见 的 情景 是 感 兴趣 类 较为 罕见 。 本 章 最 后 介绍 了 除了 简单 的 正确 率 
之 外 的 多 种 模型 评 佑 度量。 这 些 度量 对 于 稀有 类 场景 非常 重要 ， 因 为 将 所 有 的 记录 分 类 为 
“0” 无 疑 会 产生 高 正确 率 。 
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统计 机 器 学 习 





统计 学 的 最 新 进展 均 致 力 于 为 回归 和 分 类 提供 更 强大 的 自动 预测 建 模 技术 。 这 些 方法 都 属 
于 统计 机 器 学 习 。 不 同 于 经 典 的 统计 方法 ， 统 计 机 器 学 习 是 数据 驱动 的 ， 并 不 试图 在 数据 
上 强加 线性 结构 或 其 他 的 整体 结构 。 例 如 , 天 最 近邻 算法 就 是 一 种 非常 简单 的 方法 ， 它 根 
据 与 一 个 记录 相似 的 记录 的 分 类 情况 ， 对 该 记录 进行 分 类 。 最 为 成 功 并 广 为 使 用 的 技术 ， 
是 结合 决策 树 的 集成 学 习 。 集 成 学 习 的 基本 理念 是 ， 运 用 多 个 模型 而 非 单一 模型 去 生成 预 
测 。 决 策 树 对 于 学 习 预 测 变 量 和 结果 变量 之 间 关 系 的 规则 ， 是 一 种 灵活 且 自 动 化 的 技术 。 
事实 证 明 ， 集 成 学 习 与 决策 树 相 结合 ， 可 以 得 到 性 能 优良 的 、 可 用 的 预测 建 模 技术 。 


不 少 统计 机 器 学 习 技 术 的 发 展 都 可 追溯 至 两 位 统计 学 家 ， 他 们 分 别 是 美国 加 州 大 学 伯 克 
利 分 校 的 利 奥 . 布 菜 曼 (Leo Breiman， 如 图 6-1 所 示 ) 和 斯 坦 福 大 学 的 杰 里 . 弗 里 德 曼 
(Jerry Friedman)。 他 们 与 伯克利 和 斯 坦 福 大 学 的 其 他 研究 人 员 一 起 ， 在 1984 年 开启 了 树 
模型 的 发 展 。 随 后 ， 在 20 世纪 90 年 代 ， 集 成 学 习 方 法 Bagging 和 Boosting 的 发 展 确立 
了 统计 机 器 学 习 的 基础 。 







































































图 6-1: 利 奥 ' 布 莱 曼 ， 美 国 加 州 大 学 伯克利 分 校 统计 学 教授 ， 数 据 科学 家 所 使 用 的 多 种 核心 技术 的 
研究 者 
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机 器 学 习 与 统计 学 

机 器 学 习 和 统计 学 在 预测 建 模 上 有 哪些 差别 ?二 者 之 间 并 不 存在 一 条 明确 的 
分 界线 。 机 器 学 习 更 关注 如 何 开发 可 扩展 到 大 规模 数据 上 的 高 效 算法 ， 以 便 
于 优化 预测 模型 。 统 计 学 更 关注 的 是 概率 理论 和 模型 的 底层 结构 。Bagging 
算法 和 随机 森林 方法 (参见 6.3 节 ) 完全 是 从 统计 学 领域 发 展 出 来 的 。 而 
Boosting 方法 (参见 6.4 节 ) 是 从 这 两 个 学 科 中 发 展 起 来 的 ， 只 是 在 机 器 学 
习 一 方 得 到 了 更 多 的 关注 。 如 果 不 看 历史 的 话 ，Boosting 的 发 展 确 保 了 该 技 
术 同 时 适用 于 统计 学 和 机 器 学 习 这 两 个 领域 。 


























6.1 KK 最 近邻 算法 

K 最 近邻 (KNN) 算法 的 理念 非常 简单 。' 对 于 每 个 要 进行 分 类 或 预测 的 记录 ， 该 算法 : 
() 找 出 玉 个 具有 相似 特征 〈 即 具有 相似 的 预测 值 ) 的 记录 。 

(2) 对 于 分 类 ， 找 出 这 些 相似 记录 中 的 多 数 类 ， 将 其 指定 为 新 记录 的 类 。 


(3) 对 于 预测 (也 称 为 KNN 回归 )， 找 出 这 些 相 似 记录 的 均值 ， 并 将 该 均值 作为 新 记录 的 
预测 值 。 














主要 术语 

近邻 

具有 相似 预测 值 的 两 个 记录 。 
距离 度量 

以 单一 数值 的 形式 ， 测 量 两 个 记录 之 间 的 距离 。 
标准 化 

减 去 均值 ， 并 除 以 标准 偏差 。 

同义词 : 归 一 化 
Z 分 数 

标准 化 后 得 到 的 值 。 


人 
在 最 近邻 计算 中 考虑 的 近邻 个 数 。 














最 近邻 算法 是 一 种 简单 的 预测 和 分 类 技术 ， 它 不 像 回 归 那 样 需要 拟 合 一 个 模型 。 但 这 并 
` 意 味 着 使 用 玉 最 近邻 算法 不 需要 人 工 干 涉 。K 最 近邻 算法 的 预测 结果 取决 于 特征 的 规 
模 、 相 似 性 的 测定 方法 以 及 天 值 的 设置 等 因素 。 此 外 ,在 天 最 近邻 算法 中 ， 所 有 的 预测 变 
量 必 须 是 数值 型 的 。 下 面 通过 一 个 分 类 例子 介绍 天 最 近邻 算法 。 




















注 1; 本 章 中 各 节 的 内 容 ， 版 权 属于 本 书 作者 彼得 布鲁斯 和 安 德 角 布鲁斯 ，© 2017 Datastats，LLC。 使 用 
需 经 许可 。 
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6.1.1 预测 贷款 拖欠 的 示例 


表 6-1 显示 了 美国 Lending Club 公司 个 人 贷款 数据 的 部 分 记录 。 美 国 Lending Club 公司 是 
P2P 借贷 领域 的 引领 者 ， 它 将 投资 者 汇集 起 来 ， 向 个 人 提供 贷款 。 我 们 数据 分 析 的 目标 就 
是 预测 一 笔 新 贷款 的 结果 是 偿 清 还 是 拖欠 。 


表 6-1: 美国 Lending Club 公 司 贷款 数据 的 部 分 记录 
结果 ”贷款 数额 。 收入 ”贷款 目的 工作 时 间 (单位 : 年 ) ”住房 情况 ”所 在 州 
























































偿 清 。 ”10 000 79 100 ”债务 合并 11 有 房贷 内 华 达 州 
偿 清 9600 48 000 ”搬家 5 有 房贷 田纳西 州 
岩 清 ”18 800 12 003 ”债务 合并 11 有 房贷 马里 兰州 
拖欠 15250 23 200 ”小 企业 融资 “9 有 房贷 加 利 福 尼 亚 州 
类 清 ”17 050 35 000 ”债务 合并 4 租房 马里 兰州 
下 面 考 虑 一 个 非常 简单 的 模型 ， 其 中 只 有 两 个 预测 变量 dti， 表 示 偿 还 的 债务 (不 包括 房 


贷 ) 与 借款 者 收入 间 的 比率 ，payment_inc_ratio， 表 示 偿还 的 货款 与 借款 者 收入 的 比率 。 
两 个 比率 都 乘 以 100。 我 们 使 用 的 数据 集 是 有 200 笔 贷款 的 一 小 组 数据 ， 即 “loan200”。 
模型 输出 是 二 元 预测 变量 loan2969， 值 为 “拖欠 ”(default) 或 “ 偿 清 ”(paid off)。KK 值 设 
置 为 20。 下 面 ， 我 们 在 R 中 计算 在 dti=22.5 和 payment_inc_ratio=9 的 情况 下 ， 对 要 预测 
的 新 贷款 newLoan 的 KNN 估计 值 。 
library(FNN) 
knn_pred <- knn(train=loan200[-1,2:3], test=newloan, cl=loan200[-1,1], k=20) 
knn_pred == 'paid off' 
[1] TRUE 


KNN 的 预测 值 为 “ 偿 清 ”。 


虽然 R 语言 本 身 也 提供 了 一 个 原生 的 knn 函数 ， 但 是 由 第 三 方 提供 的 RR 语言 软件 包 FNN 可 
以 更 好 地 扩展 到 大 数据 上 ， 并 且 具 有 更 高 的 灵活 性 。 


6-2 给 出 了 该 例子 的 可 视 化 展示 。 要 预测 的 新 贷款 数据 位 于 图 的 中 心 处 ， 用 小 方块 标识 。 
圆 点 (拖欠) 和 又 号 〈 偿 清 ) 标识 训练 数据 。 黑 色 线 条 所 绘制 的 圆圈 显示 了 20 个 最 近邻 
点 的 边界 。 在 本 例 中 ,圆圈 内 有 14 个 贷款 拖欠 数据 点 ， 而 只 有 6 个 偿 清 贷款 数据 点 。 因 
此 ， 贫 款 的 预测 输出 是 “拖欠 ”。 


KNN 预测 的 输出 通常 是 二 元 决策 。 例 如 ， 在 贷款 数据 中 ， 预 测 的 输出 是 
“拖欠 ”或 “ 偿 清 ”。KNN 还 可 以 输出 一 个 位 于 [0, 1] 区 间 内 的 概率 值 (倾向 
性 )。 该 概率 值 基于 某 个 类 在 天 个 最 近邻 中 的 比例 。 在 前 面 的 例子 中 ， 可 以 
估计 贷款 拖欠 的 概率 为 14/20， 即 0.7。 如 果 使 用 概率 值 ， 那 么 我 们 就 能 使 用 
分 类 规则 ， 而 非 简单 的 多 数 票 〈 即 概率 0.5)。 这 一 点 对 于 不 平衡 数据 尤为 重 
要 ， 参 见 5.5 节 。 例 如 ， 如 果 预 测 目标 是 识别 一 个 稀有 类 的 成 员 ， 截 止 值 通 
常设 为 低 于 50%。 一 种 常用 方式 是 将 截止 值 设 为 稀有 事件 的 概率 。 
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4 8 12 
支出 与 收入 的 比率 
图 6-2: 贷款 拖欠 的 KNN 预测 ， 其 中 使 用 了 两 个 变量 ;贷款 与 收入 的 比率 ， 以 及 偿 贷 与 收入 的 比率 


6.1.2 ”距离 度量 


距离 度量 用 于 判定 相似 性 (接近 度 ) ， 它 是 一 个 测量 两 个 记录 Ce 2 2) 和 (wa, 2 1,) 
之 间距 离 的 函数 。 最 广 为 使 用 的 向 量 距离 度量 是 欧 氏 距离 。 在 测量 两 个 向 量 间 的 欧 氏 距离 


时 ， 依 次 取 两 个 向 量 中 对 应 元 素 的 差 值 ， 并 对 各 个 差 值 平方 ， 累 加 后 昨 


式 为 : 























了 取 平 方 根 。 计 算 公 














Va u)” + (x u,)” Ft (x, u,) 














比较 ， 其 中 是 向 量 的 行 数 。 
如 果 数 据 是 数值 

















欧 氏 距离 非常 容易 计算 。 对 于 大 型 数据 集 ， 这 一 点 尤为 重要 ， 因 为 KNN 涉及 Kxn 次 逐 对 


型 的 ， 那 么 另 一 种 常用 的 距离 度量 是 曼哈顿 距离 ， 计 算 公 式 为 : 





[x —ul|1 





之 间 的 距离 ， 例 如 遍历 矩形 城 
曼哈顿 距离 更 适用 。 


区 . 





一 
月 











欧 氏 距离 表示 的 是 两 点 之 间 的 直线 距离 。 


x |+… 二 | 


p a 


而 曼哈顿 距离 是 在 某 一 时 刻 以 同一 方向 遍历 两 点 





。 因 此 ， 如 有 果 定 义 相似 性 为 点 到 点 的 行程 时 间 ， 那 么 








在 测量 两 个 向 量 之 间 的 距离 时 ， 测 量 值 取决 于 规模 相对 较 大 的 变量 (特征 )。 以 贷款 数据 
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为 例 ， 距 离 几 乎 完全 是 收入 和 贷款 数额 这 两 个 变量 的 国 数 ， 它 们 是 从 数 万 乃至 数 十 万 条 记 
录 中 测量 的 。 相 比 之 下 ， 比 率 变量 几乎 不 起 作用 。 这 个 问题 可 以 使 用 数据 的 标准 化 解决 ， 
参见 6.1.4 节 。 


其 他 距离 度量 

还 有 很 多 测量 向 量 间 距离 的 度量 。 对 于 数值 型 数据 ， 还 经 常 使 用 马 氏 距离 。 
它 考 虑 了 两 个 变量 之 间 的 相关 性 ， 这 一 点 十 分 有 用 。 ep 
关 的 ， 那 么 使 用 马 氏 距离 就 可 以 在 距离 上 将 它们 基本 视 为 同一 变量 。 欧 氏 距 
离 和 曼哈顿 距离 并 未 考虑 相关 性 ， 只 是 对 这 些 特 征 的 属性 添加 了 更 大 的 权 
重 。 马 氏 距 离 的 缺点 是 在 计算 中 要 使 用 协 方差 矩阵 ， 这 增加 了 计算 的 难度 和 
复杂 性 ， 参 见 5.2.1 节 。 
































6.1.3 独 热 编 码 


表 6-1 列 出 的 贷款 数据 中 包含 了 多 个 因子 (字符 串 ) 变量 。 对 于 大 多 数 统计 学 和 机 器 学 习 
模型 而 言 ， 这 类 变量 需要 转换 为 一 组 承载 了 同样 信 息 的 二 元 虚拟 变量 ， 如 表 6-2 所 示 。 我 
们 没有 使 用 一 个 变量 将 住房 情况 表示 为 “有 房产 但 有 房贷 ”“ 有 房产 且 无 房贷 ” “租房 ”或 
“其 他 ” ， 而 是 使 用 了 4 个 二 元 变量 。 第 一 个 变量 表示 “是 否 有 房产 但 有 上 房贷” ， 第 二 个 变 
量 表示 0 等 。 因此， 住房 情况 这 个 预测 变量 生成 了 一 个 向 量 ,， 其 
中 包括 一 个 “1” 和 三 个 “ 。 这 样 的 向 量 可 以 用 在 统计 学 和 机 器 学 习 算 法 中 。 独 热 编码 
(one hot encoding) 源 i 描述 了 在 电路 设置 中 只 允许 一 个 位 是 正 问 
的 ( 即 “ 热 ”)。 


表 6-2: 以 数值 型 虚拟 变量 表示 房产 情况 的 因子 数据 
有 房贷 其 他 有 房 租房 
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对 于 线性 回归 和 逻辑 回归 ， 独 热 编码 会 导致 多 重 共 线 性 问题 ， 参 见 4.5.2 节 。 
出 现 该 问题 ， 是 因为 在 编码 中 忽略 了 一 个 虚拟 变量 ， 而 它 的 值 可 以 从 其 他 虚 
拟 变量 值 中 推导 出 来 。KNN 和 其 他 方法 并 不 存在 这 个 问题 。 

















6.1.4 标准 化 


在 测量 中 ， 我 们 通常 感 兴趣 的 并 不 是 具体 的 测量 结果 ， 而 是 “与 平均 值 的 差异 。 标 准 化 








(也 称 为 归 一 化 ) * 通过 减 去 均值 并 除 以 标准 偏差 ,将 所 有 变量 置 于 同一 尺度 。 该 方式 避免 了 
变量 的 原始 测量 规模 对 模型 产生 过 度 的 影响 。 








我 们 一 般 称 如 上 标准 化 的 值 为 z 分 数 。 这 时 ， 测 量 值 可 以 用 “偏离 均值 的 标准 偏差 ” 表 
示 。 这 样 ， 变 量 对 模型 的 影响 就 不 会 受 原始 测量 规模 的 影响 。 





不 要 将 统计 学 中 的 归 一 化 与 数据 库 的 归 一 化 混为一谈 。 数 据 库 标准 化 的 目的 
在 于 去 除 元 余 的 数据 ， 并 验证 数据 的 依赖 关系 。 














在 应 用 KNN、 主 成 分 分 析 和 聚 类 等 算法 之 前 ， 要 考虑 数据 的 标准 化 问题 。 为 了 介绍 这 一 理 
念 ， 下 面 对 贷款 数据 应 用 KNN 算法 (参见 6.1.1 节 )。 除 了 使 用 dti 和 payment_inc_ratio 
这 两 个 变量 之 外 ， 我 们 还 添加 了 另外 两 个 变量 : revol_bal 表示 可 提供 给 借款 者 的 循环 信 
贷 总 额 (单位 为 美元 ) ;revol_util 表示 所 使 用 的 信贷 百分比 。 下 面 给 出 了 需要 预测 的 新 
记录 。 

newLoan 


payment_inc_ratio dti revoL_baL revoL_utiL 
1 2:3932 1 1687 9.4 


我 们 看 到 ， 变 量 revol_bal (单位 为 美元 ) 的 规模 远大 于 其 他 变量 。knn 函数 以 属性 
nn.index 返回 了 最 近邻 的 索引 。 下 面 使 用 nn.index 显示 Load_df 中 最 近 的 5 行 数据 。 


Loan_df <- model.matrix(~ -1 + payment inc ratio + dti + revol bal + 
revol_util, data=loan_data) 
knn_pred <- knn(train=loan_df, test=newloan, cl=outcome, k=5) 
Loan_df[attr(knn_pred, "nn.index"),] 
payment_inc _ratio dti revol bal revol_util 


























36054 2.22024 0.79 1687 8.4 
33233 5.97874 1.03 1692 6.2 
28989 5.65339 5.40 1694 7.0 
29572 5.00128 1.84 1695 5.1 
20962 9.42600 7.14 1683 8.6 





在 显示 的 5 个 近邻 数据 中 ， 只 有 revol_bal 的 值 与 新 记录 中 的 对 应 值 非 常 接近 ， 其 他 预测 
变量 的 值 非常 分 散 ， 在 确定 近邻 上 基本 没有 发 挥 作 用 。 

下 面 ， 我 们 使 用 R 语言 的 scale 函数 对 数据 做 标准 化 ， 该 函数 计算 每 个 变量 的 z 分 数 。 然 
后 对 标准 化 后 的 数据 应 用 KNN。 


Loan_std <- scale(loan_df) 
knn_pred <- knn(train=loan_std, test=newloan_std, cl=outcome, k=5) 




















注 2: 严格 地 说 ,“ 归 一 化 ”(normalization) 和 “标准 化 ”(standardization) 是 两 种 不 同 的 数据 规范 方法 。 
但 是 从 实现 数据 按 比 例 缩放 这 一 目的 看 ， 可 以 认为 两 者 实现 了 相同 的 目标 ， 尤 其 是 两 者 都 可 以 采用 本 
节 介 绍 的 = 标准化 方法 实现 。 归 一 化 的 内 容 ， 可 参见 7.5.1 节 。 译 者 注 
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Loan_df[attr(knn_pred, "nn.index"),] 
payment_inc_ratito dti revoL_balL revol_util 


2081 2.61091 1.03 1218 9.7 
36054 2.22024 0.79 1687 8.4 
23655 2.34286 1.12 523 10.7 
41327 2.15987 0.69 2115 8.1 
39555 2.76891 0.75 2129 9.5 








可 以 看 到 ， 这 时 所 显示 的 5 个 近邻 数据 中 ， 所 有 的 变量 都 与 新 记录 的 对 应 值 非常 接近 ， 这 
样 的 结果 更 直观 。 需 要 注意 的 是 ， 虽 然 结果 以 是 数据 的 原始 比例 显示 的 ， 但 是 KNN 是 应 
用 于 经 过 缩放 的 数据 以 及 要 预测 的 新 贷款 上 的 。 


z 分 数 只 是 一 种 重新 调整 变量 尺度 的 方式 。 均 值 可 以 替换 成 更 稳健 的 位 置 估 
计量 ， 例 如 中 位 数 。 同 样 ， 标 准 偏差 也 可 以 使 用 其 他 的 缩放 估计 量 替 换 ， 例 
如 四 分 位 距 。 在 一 些 情况 下 ， 变 量 已 被 “压缩 ”到 [0, 1] 区 间 内 。 我 们 也 应 
认识 到 ， 为 了 得 到 单位 变异 性 而 对 每 个 变量 进行 缩放 ， 其 中 可 能 存在 一 定 的 
随意 性 。 这 意味 着 ， 我 们 认为 每 个 变量 在 预测 能 力 上 具有 同等 的 重要 性 。 如 
果 我 们 只 根据 自己 的 主观 认识 ， 判 定 一 些 变量 比 其 他 变量 更 重要 ， 那 么 我 们 
可 以 放大 这 些 变量 。 例 如 ， 对 于 贷款 数据 ， 我 们 完全 有 理由 认为 支出 与 收入 
的 比率 非常 重要 。 



























































标准 化 〈 归 一 化 ) 并 不 会 改变 数据 的 分 布 形 状 。 如 果 数 据 并 不 符合 正 态 分 
布 ， 那么 标准 化 后 也 不 会 符合 正 态 分 布 (参见 2.6 节 )。 








6.1.5 ”kK 值 的 选取 

天 值 的 选取 对 KNN 的 性 能 也 非常 重要 。 最 简单 的 方法 是 令 K = 1， 称 为 1- 最 近邻 分 类 器 。 
这 时 预测 是 直观 的 ， 即 在 训练 集中 找到 与 要 预测 的 新 记录 最 相似 的 数据 记录 。 但 是 K= 1 
很 少 是 最 佳 的 选择 。 通 常 ， 使 用 及 > 1 的 KNN 总 能 获得 更 好 的 性 能 。 

一 般 来 说 ， 如 果 天 值 设置 过 低 ， 可 能 会 产生 过 拟 合 ， 即 数据 中 包含 了 噪声 。 而 较 高 的 天 值 
则 提供 了 平滑 ， 降 低 了 过 拟 合 训 练 数据 的 风险 。 另 外 ， 如 果 天 值 设 置 过 高 ， 会 对 数据 做 过 
平滑 ， 进 而 形 失 了 KNNN 的 一 个 主要 优点 ， 即 捕获 数据 局 部 结构 的 能 

通常 使 用 正确 率 ， 尤 其 是 测试 数据 或 验证 数据 的 正确 率 ， 确 定 一 个 能 在 过 拟 合 和 过 平滑 之 
间 取 得 最 佳 平 衡 的 玉 值 。 目 前 并 不 存在 一 种 选取 最 佳 玉 值 的 通用 规则 ， 这 在 很 大 程度 上 
取决 于 数据 的 性 质 。 对 于 具有 很 少 噪 声 的 高 度 结构 化 数据 ， 更 小 的 天 值 会 工作 得 更 好 。 有 
时 ， 人 人 们 会 使 用 信号 处 理 领 域 的 术语 ， 将 这 种 数据 称 为 具有 高 信 噪 比 (SNR) 的 数据 。 高 
信 噪 比 数据 的 例子 包括 手写 体 识别 和 语言 识别 。 对 于 结构 松散 的 噪声 数据 〈( 即 低 信 噪 比 数 
据 ) ， 例 如 贷款 数据 ， 更 大 的 玉 值 比较 适合 。K 的 常见 取 值 介 于 1 ~ 20 之 间 ， 通 常会 选择 
一 个 奇数 ， 以 免 出 现 平 局 。 
































偏差 与 方差 的 权衡 

过 平滑 和 过 拟 合 之 间 的 拉锯 关系 ， 正 古 偏 差 与 方差 之 间 的 权衡 的 一 个 具体 体 
现 。 这 一 问题 在 统计 模型 拟 合 中 普遍 存在 。 方 差 是 由 于 训练 数据 的 选取 而 产 
生 的 建 模 误 差 。 也 就 是 说 ， 如 果 选 择 了 不 同 的 训练 数据 集 ， 那 么 生成 的 模型 
会 有 所 差异 。 偏 差 是 是 由 于 未 能 正确 识别 潜在 的 现实 场景 而 产生 的 建 模 误 
差 。 如 果 只 是 添加 更 多 的 训练 数据 ， 偏 差 并 不 会 消失 。 当 一 个 灵活 的 模型 产 
生 过 拟 合 时 ， 方 差 可 能 会 增 大 。 使 用 一 个 更 简单 的 模型 可 以 减 小 方差 . 但 是 
由 于 损失 了 对 真实 情况 建 模 的 灵活 性 ， 偏 差 可 能 会 增 大 。 处 理 这 一 权衡 的 一 
种 通用 方法 是 使 用 “ 交 又 验证”"。 具 体内 容 ， 参 见 4.2.3 节 。 











6.1.6 KNN 作 为 特征 引擎 


由 于 其 简单 性 和 直观 的 本 质 ，KNN 得 到 了 广泛 应 用 。 但 是 ， 与 其 他 更 复杂 的 分 类 技术 相 
比 ，KNN 本 身 在 性 能 上 并 不 具有 竞争 力 。 在 实际 的 模型 拟 合 中 ， 可 以 将 KNN 作为 一 个 阶 
段 性 过 程 ， 用 于 向 其 他 分 类 方法 中 添加 “局 部 知识 ”。 有 具体 做 法 如 下 : 

(1) 在 数据 上 运行 KNN， 为 每 个 记录 生成 一 个 分 类 〈 或 是 分 类 的 拟 概率 ) ， 

(2) 将 结果 作为 一 个 新 特征 添加 到 记录 中 ， 然 后 在 生成 的 数据 上 运行 另 一 种 分 类 方法 。 这 

样 ， 我 们 使 用 了 原始 预测 变量 两 次 。 

鉴于 部 分 预测 变量 在 上 述 过 程 中 使 用 了 两 次 ， 你 可 能 会 怀疑 该 过 程 是 否 会 导致 多 重 共 线 性 
(参见 4.5.2 节 )。 这 并 不 是 问题 ， 因 为 添加 到 第 二 阶段 模型 中 的 信息 只 是 由 数 个 近邻 记录 
获得 的 ， 因 而 是 高 度 局 部 的 ， 它 们 只 会 构成 一 种 额外 信息 ， 而 非 元 余 信 息 。 


我 们 可 以 将 阶段 性 地 使 用 KNN 看 作 集成 学 习 的 一 种 形式 ， 在 集成 学 习 的 过 
程 中 同时 使 用 了 多 种 预测 建 模 方法 。 也 可 以 将 其 视 为 一 种 特征 工程 ， 目 标 是 
提取 出 一 些 具有 预测 能 力 的 特征 (预测 变量 )。 在 特征 工程 中 ， 我 们 通常 需 
要 手工 审核 数据 ， 而 KNN 提供 了 一 种 相当 自动 化 的 方式 。 



























































以 美国 金 县 房屋 数据 为 例 。 在 对 一 个 要 出 售 的 房屋 定价 时 ， 房 地 产 经 纪 人 会 以 估价 
(comps) 为 基准 ， 即 近期 售 出 的 类 似 房屋 的 价格 。 事 实 上 ， 房 地 产 经 纪 人 所 做 的 事情 可 视 
为 一 种 手工 版 的 KNN， 即 通过 查看 类 似 房 屋 的 销售 价格 对 要 出 售 的 房屋 进行 估价 。 通 过 
将 KNN 应 用 于 近期 的 销售 数据 ， 就 可 以 为 统计 模型 创建 一 个 新 特征 ， 以 模拟 房地产 专业 
人 士 。 我 们 要 预测 的 值 是 房屋 销售 价格 ,已 有 的 预测 变量 包括 地 段 、 总 建筑 面积 、 房 屋 结 
构 类 型 、 地 皮 大 小 ， 以 及 卧室 数量 和 浴室 数量 。 由 KNN 生成 的 新 预测 变量 (特征 )， 就 是 
每 条 记录 的 KNN 预测 变量 ， 类 似 于 房地产 经 纪 人 的 估价 。 由 于 我 们 要 预测 的 是 一 个 数值 ， 
因此 使 用 的 是 天 个 最 近邻 记录 的 均值 ， 而 不 是 多 数 票 。 这 种 方法 被 称 为 KNN 回归 。 

同样 ， 对 于 贷款 数据 ， 我 们 也 可 以 创建 一 些 新 特征 ， 表 示 贷 款 过 程 的 不 同方 面 。 例 如 ， 下 
面 的 命令 将 构建 一 个 表示 借款 者 信誉 的 特征 。 


borrow_ df <- model.matrix(~ -1 + dti + revol bal + revol util + open_acc + 
delinq 2yrs_zero + pub_rec_ zero, data=loan_data) 
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borrow_knn <- knn(borrow_df，test=borrow_df，cL=Loan_data[ ，'outcome '] ， 
prob=TRUE, k=10) 
prob <- attr(borrow_knn, "prob") 
borrow_feature <- ifelse(borrow_knn=='default', prob, 1-prob) 
summary(borrow_feature) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.0000 0.4000 0.5000 0.5012 0.6000 1.0000 


命令 的 结果 是 一 个 特征 ， 表 示 了 基于 历史 数据 对 借款 者 拖欠 可 能 性 的 预测 。 























本 节 要 点 

。 KNN 通过 指定 与 一 条 记录 相似 的 记录 所 属 的 类 ， 实 现 对 该 记录 的 分 类 。 

。 可 以 使 用 欧 氏 距离 或 其 他 相关 度量 判定 相似 度 (距离 )。 

。 与 一 条 记录 进行 比较 的 最 近邻 数 〈( 即 玉 值 )， 取 决 于 使 用 不 同 玉 值 时 ， 算 法 在 训练 
数据 上 的 性 能 。 

。 预测 变量 通常 需要 做 标准 化 ， 以 避免 大 尺度 变量 主导 了 距离 度量 。 

。 KNN 常常 作为 预测 建 模 过 程 的 第 一 个 阶段 。KNN 的 预测 值 会 作为 一 个 预测 变量 添 
加 回 数据 中 ， 进 而 用 于 第 二 阶段 ( 非 KNN) 的 建 模 。 


6.2” 树 模型 


树 模 型 也 被 称 为 分 类 与 回归 树 (CART)“、 决 策 树 (或 简称 为 树 )， 它 是 一 种 有 效 的 分 类 和 
回归 方法 ， 最 早 由 利 奥 ' 布 莱 曼 等 人 在 1984 年 提出 ， 并 得 到 了 广泛 的 使 用 。 在 数据 科学 中 
做 回归 和 分 类 时 ， 树 模型 及 其 更 加 强大 的 衍生 方法 随机 森林 和 Boosting 方法 (参见 6.3 节 
和 6.4 节 )， 是 最 广 为 使 用 的 、 也 是 最 强大 的 预测 建 模 工 具 。 

















主要 术语 
递归 分 区 〈recursive partition ) 
反复 对 数据 进行 划分 和 细 分 ， 目 的 是 使 每 个 最 终 细 分 内 的 结果 尽 可 能 同 质 。 
拆 分 值 (split value) 
一 个 预测 变量 值 ， 它 将 一 组 记录 分 为 两 部 分 ， 使 得 一 部 分 中 的 预测 变量 小 于 拆 分 
值 ， 而 另 一 部 分 中 的 预测 变量 大 于 拆 分 值 。 
节点 


在 决策 树 中 (或 在 一 组 相应 的 分 支 规则 中 )， 节 点 是 拆 分 值 的 图 形 化 表示 (或 规 
则 表示 )。 
叶子 


一 组 if-then 规则 的 终点 ， 或 一 个 树 分 支 的 终点 。 在 树 中 访问 叶子 的 规则 ， 构 成 
了 对 树 中 一 条 记录 的 分 类 规则 。 











注 3: CART 是 美国 Salford Systems 公司 的 注册 商标 ， 特 指 该 公司 的 树 模型 实现 。 
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在 拆 分 过 程 的 某 一 阶段 中 误 分 类 的 个 数 。 损 失 越 大 ， 不 纯度 越 高 。 
不 纯度 
表示 在 数据 的 一 个 细 分 中 发 现 多 个 类 混杂 的 程度 。 细 分 中 混杂 的 类 越 多 ， 该 细 分 
的 不 纯度 就 越 高 。 
同义词 : 异 质 性 
反义词 : 同 质 性 、 纯 度 
剪 枝 
为 了 降低 过 拟 合 ， 对 一 棵 完全 长 成 树 逐 步 剪 枝 的 过 程 。 

















树 模 型 由 一 组 if-then-else 规则 构成 ， 易 于 理解 ， 也 易于 实现 。 树 模型 不 同 于 回归 和 逻辑 
回归 ， 它 可 以 发 现 数据 中 隐 含 的 一 些 复杂 交互 模式 。 简 单 树 模型 也 不 同 于 KNN 和 朴素 贝 
叶 斯 ， 它 可 以 表示 为 预测 变量 之 间 的 关系 ， 易 于 解释 。 

运筹 学 中 的 决策 树 

在 决策 科学 和 运筹 学 中 ， 决 策 树 一 词 有 着 不 同 〈 且 更 古老 ) 的 意义 ， 它 指 的 

是 人 类 决策 的 分 析 过 程 。 在 这 种 意义 下 ， 分 支 图 中 绘制 的 是 决策 点 、 可 能 的 
结果 以 及 它们 的 估计 概率 ， 并 选择 具有 最 大 期 望 值 的 决策 路 径 。 
































6.2.1 一 个 简单 的 例子 


在 了 语言 中 ， 拟 合 树 模型 主要 使 用 软件 包 rpart 和 tree。 下 面 的 代码 使 用 rpart 软件 包 ， 
根据 变量 payment_inc_ratio 和 borrower_score 对 贷款 数据 拟 合 了 一 个 树 模 型 。 所 使 用 的 
数据 是 一 个 具有 3000 条 记录 的 样本 (参见 6.1 节 )。 
library(rpart) 
Loan_tree <- rpart(outcome ~ borrower_score + payment_inc_ratio, 

data=loan_data, control = rpart.control(cp=.005)) 
plot(loan_tree, uniform=TRUE, margin=.05) 
text(loan_tree) 


树 模型 如 图 6-3 所 示 。 图 中 给 出 的 分 类 规则 是 通过 遍历 层级 树 模型 确定 的 。 遍 历 从 树 的 根 
部 开始 ， 直 到 抵达 了 一 个 叶子 。 

绘制 的 树 通常 是 倒置 的 ， 即 根 显示 在 顶部 ， 叶 子 显示 在 底部 。 如 果 贷 款 变 量 borrower_ 
score 的 值 为 0.6， 变 量 payment_inc_ratio 的 值 是 8.0， 结 果 最 终 会 落 在 最 左边 的 叶子 上 ， 
即 预测 贷款 将 会 被 还 请 。 
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borrower_score>=0.525 






payment_inc_ratio<8.772 
borrower_score>=0.625 


图 6-3: 拟 合 贷款 数据 的 一 个 简单 树 模型 中 的 规则 
使 用 R 语言 ， 很 容易 生成 一 个 绘图 效果 更 好 的 树 模型 。 


Loan_tree 
n=3000 


payment_inc_ratio<9.732 
borrower_score>=0.375 



















node), split, n, loss, yval, (yprob) 
* denotes terminal node 


1) root 3000 1467 paid off (0.5110000 0.4890000) 
2) borrower_score>=0.525 1283 474 paid off (0.6305534 0.3694466) 

4) payment_inc_ratio< 8.772305 845 249 paid off (0.7053254 0.2946746) * 
5) payment_inc_ratio>=8.772305 438 213 default (0.4863014 0.5136986) 
10) borrower_score>=0.625 149 60 paid off (0.5973154 0.4026846) * 
11) borrower_score< 0.625 289 124 default (0.4290657 0.5709343) * 

3) borrower_score< 0.525 1717 724 default (0.4216657 0.5783343) 

6) payment_iinc_ratio< 9.73236 1082 517 default (0.4778189 0.5221811) 
12) borrower_score>=0.375 784 384 paid off (0.5102041 0.4897959) * 
13) borrower_score< 0.375 298 117 default (0.3926174 0.6073826) * 

7) payment_inc_ratio>=9.73236 635 207 default (0.3259843 0.6740157) * 


在 输出 结果 中 ， 以 缩 进 的 形式 表示 了 树 的 深度 。 树 的 每 个 节点 对 应 一 个 临时 分 类 ， 该 临时 
分 类 由 该 分 区 中 的 主要 结果 确定 。 输 出 中 的 Loss 项 表示 每 个 分 区 的 临时 分 类 所 产生 的 误 分 
类 数 。 例 如 ， 在 节点 2， 在 1467 条 记录 中 有 474 条 被 误 分 类 。 括 号 中 的 值 分 别 对 应 已 偿 清 
和 拖欠 记录 的 比例 。 例 如 ， 在 预测 为 拖欠 的 节点 13 中 ， 有 60% 以 上 的 记录 是 贷款 拖欠 。 


6.2.2 ”递归 分 区 算法 


决策 树 的 构造 算法 被 称 为 递归 分 区 法 ， 该 算法 的 理念 十 分 直观 ， 运 算 也 非常 直接 。 它 通 
过 选取 预测 变量 值 ， 将 分 区 中 的 数据 划分 为 同 质 的 子 分 区 ， 进 而 重复 地 对 当前 分 区 数据 
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es 
score>=0.525， 图 中 表示 为 “1”。 第 二 条 规则 是 payment_inc_ratio<8.772， 它 将 “1” 划 分 
Oe 
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图 6-4: 拟 合 贷款 数据 的 一 个 简单 树 模型 中 的 规则 


假设 我 们 有 一 个 响应 变量 了 和 一 组 尸 个 预测 变量 总 (j = 1,…, P)。 对 于 分 区 4 中 的 记录 ， 
递归 分 区 算法 将 找 出 将 4 拆 分 为 两 个 子 分 区 的 最 佳 方法 : 


(1) 对 于 每 个 预测 变量 包 ， 
a 对 于 累 中 的 每 个 值 s,: 
- 将 4 中 的 记录 拆 分 为 <w 夭 三 sj 两 个 子 分 区 
- 对 4 的 每 个 子 分 区 ， 测量 其 中 类 的 同 质 性 
b. 选择 生成 了 分 区 内 最 大 类 同 质 性 的 5,。 
(2) 选择 生成 了 分 区 内 最 大 类 同 质 性 的 拆 分 值 s; 和 变量 多。 
下 面 给 出 算法 中 的 递归 计算 部 分 。 


(1) 初始 化 ， 以 分 区 4 为 整个 数据 集 。 

(2) 应 用 上 面 的 分 区 算法 ， 将 分 区 4 拆 分 为 两 个 子 分 区 41 和 4,。 
(3) 对 子 分 区 41 和 4, 重复 步骤 2。 

(4) 如 果 进 一 步 分 区 不 再 从 实质 上 改进 子 分 区 的 同 质 性 ， 终 止 算法 。 


最 终结 果 就 是 类 伺 于 图 6-4 所 示 的 数据 分 区 ， 一 个 不 同 之 处 是 数据 为 P 维 的 ， 另 一 个 不 同 之 
处 是 每 个 分 区 会 根据 该 分 区 中 响应 变量 的 多 数 票 情况 ， 给 出 一 个 值 为 “0” 或 “1” 的 预测 。 
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树 模型 不 仅 可 以 做 出 值 为 “0” 或 “1” 的 二 元 预测 ， 还 可 以 根据 分 区 中 的 
“0” 和 “1” 的 数量 产生 一 个 概率 估计 值 。 概 率 估计 值 是 分 区 中 “0” 或 “1” 
的 总 个 数 ， 除 以 分 区 中 观测 值 的 总 个 数 。 

概率 (Y= 1)= 分 区 中 “1” 的 个 数 / 分 区 大 小 

了 = 1 的 概率 估计 值 可 以 转换 为 二 元 决策 。 例 如 ， 如 果 概 率 估计 值 大 于 0.5， 
那么 可 以 设 估 计 值 为 1。 


6.2.3 测量 同 质 性 或 不 纯度 


树 模 型 递归 地 创建 分 区 (记录 的 集合 )， 并 给 出 了 = 0 或 了 = 1 的 预测 结果 。 从 上 节 介 绍 的 
递归 算法 中 可 以 看 到 ， 我 们 还 需要 一 种 测量 分 区 同 质 性 (也 称 为 类 纯度 ) 的 方法 。 或 者 也 
可 以 说 ， 我 们 需要 测量 分 区 的 不 纯度 。 预 测 的 正确 率 是 分 区 内 误 分 类 记录 的 比例 p。p 的 
取 值 介 于 0〈 即 完美 分 区 ) 和 0.5〈 即 纯 随机 猜测 ) 之 间 。 


事实 证 明 ， 对 于 不 纯度 来 说 ， 正 确 率 并 非 一 种 很 好 的 度量 。 两 种 常用 的 不 纯度 度量 分 别 是 
基尼 不 纯度 和 粹 (或 信息 )。 虽 然 这 些 不 纯度 度量 及 其 他 一 些 度 量 适 用 于 多 分 类 〈 即 两 个 
以 上 的 类 ) 问题 ， 在 此 我 们 只 介绍 二 元 的 情况 。 一 组 记录 4 的 基尼 不 纯度 1(4) 定义 为 : 


14)=p(1 —p) 
































炉 1(4) 由 下 式 给 
14)=—p log, (p)—(1—p)l1o0g, (1—p) 


图 6-5 显示 了 基尼 不 纯度 (经 过 重新 缩放 的 ) 与 炉 度量 是 相似 的 ， 在 中 等 正确 率 和 高 正确 
率 的 情况 下 ， 会 给 出 较 高 的 不 纯度 分 值 。 














1.001 





其 正确 率 
苹 
六 05 填 一 一 -=----， 
一 一 一 基尼 不 纯度 























图 6-5: 基尼 不 纯度 和 闹 度量 
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基尼 系数 
不 要 将 基尼 不 纯度 与 基尼 系数 混淆 。 虽 然 它 们 表示 相似 的 概念 ， 但 是 基尼 系 
数 仅 限于 二 分 类 问题 ， 并 与 AUC 度量 有 关 (参见 5.4.5 节 )。 











在 上 一 市 介绍 的 递归 分 区 算法 中 ， 我 们 使 用 了 不 纯度 作为 度量 。 对 于 该 算法 给 出 的 每 个 数 
据 分 区 ， 算 法 测量 由 拆 分 所 产生 的 每 个 子 分 区 的 不 纯度 ， 然 后 计算 加 权 均 值 ， 并 选择 (在 
每 个 阶段 中 ) 生成 最 低 加 权 均 值 的 子 分 区 。 


6.2.4 阻止 树 模 型 继续 生长 

随 着 树 变 得 越 来 越 大 ， 拆 分 规则 变 得 越 来 越 详细 ， 树 也 和 逐 新 从 识别 确定 数据 中 真实 可 靠 关 
系 的 “大 ”规则 ， 转 变 为 识别 仅 反 映 噪 声 的 “小 ”规则 。 一 棵 完全 长 成 树 会 生成 完全 纯粹 
的 叶子 ， 进 而 在 训练 数据 上 达到 100% 的 分 类 正确 率 。 

当然 ， 这 个 正确 率 是 不 实际 的 一 一 树 过 拟 合 了 数据 (参见 6.1.5 节 中 的 知识 点 “偏差 与 方差 
的 权衡 ” ) 。 这 表明 我 们 在 训练 数据 中 拟 合 了 噪声 ， 而 不 是 我 们 想 要 在 新 数据 中 识别 的 信和 号。 


剪 梳 
一 种 减 小 树 规模 的 简单 又 直观 的 方法 ， 是 对 树 的 末端 和 较 小 的 分 支 做 剪 枝 ， 
从 而 生成 较 小 规模 的 树 。 那 么 我 们 要 对 树 剪 枝 到 哪 一 层 ? 一 种 常用 的 技术 是 
前 枝 到 验证 数据 集 上 的 误差 达到 最 小 。 如 果 组 合 了 来 自 多 个 树 模 型 的 预测 
(参见 6.3 节 ) ， 就 需要 一 种 能 阻止 树 模型 生长 的 方法 。 在 使 用 交叉 验证 确定 
树 在 组 合 方法 中 的 生长 程度 时 ， 剪 枝 会 发 挥 作 用 。 






































对 于 某 个 阶段 ， 我 们 需要 一 种 方法 确定 何 时 停止 树 模型 的 生长 。 该 方法 也 可 泛 化 到 新 数 
据 。 常 用 的 停止 拆 分 方法 有 以 下 两 种 。 


。 如 果 拆 分 后 的 子 分 区 过 小 , 或 末端 叶子 的 规模 过 小 , 就 应 避免 拆 分 。 在 rpart 软件 包 中 ， 
这 些 约束 是 由 参数 minsplit 和 minbucket 控制 的 ， 它 们 的 默认 值 分 别 是 20 和 7。 

。 如 果 新 分 区 并 未 使 不 纯度 “显著 ”降低 ， 那 么 就 不 必 拆 分 该 分 区 。 在 rpart 软件 包 中 ， 
这 是 由 复杂 度 参数 cp 控制 的 。 该 参数 度量 了 树 模 型 的 复杂 度 。 树 模型 越 复杂 ，cp 的 值 
就 越 大 。 在 实践 中 ， 参 数 cp 是 通过 对 树 模 型 的 额外 复杂 度 ( 拆 分 ) 附加 惩罚 项 ， 从 而 
限制 了 树 模 型 的 增长 。 


在 第 一 种 方法 中 ， 我 们 可 以 添加 任意 规则 ， 因 此 它 适 用 于 探索 性 工作 。 但 是 该 方法 不 易 确 
定 最 优 值 ， 即 让 新 数据 的 预测 准确 性 最 大 化 的 值 。 使 用 复杂 度 参数 cp， 可 以 确定 在 新 数据 
上 性 能 最 好 的 树 模型 规模 。 

如 果 cp 值 过 小 ， 那 么 树 模型 将 过 拟 合 数据 ， 即 模型 拟 合 了 噪声 而 非 信 号 。 反 过 来 ， 如 
果 cp 值 过 大 ， 那 么 树 模 型 的 规模 将 过 小 ， 预 测 能 力 会 很 低 。 参 数 rpart 的 默认 值 为 0.01， 
但 对 于 较 大 的 数据 集 ， 我 们 或 许 会 发 现 该 默认 值 还 是 偏 大 。 在 前 面 的 例子 中 ，cp 值 设 为 
0.005， 因 为 使 用 默认 值 会 生成 一 个 只 有 一 次 拆 分 的 树 模型 。 在 探索 性 分 析 中 ， 只 需 对 该 值 
做 一 些 简单 的 尝试 即 可 。 
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如 何 确定 最 优 cp 值 ， 这 是 偏差 与 方差 间 权 衡 问题 的 又 一 个 实例 (参见 6.1.5 节 中 的 知识 
点 “偏差 与 方差 的 权衡 ")。 最 常用 的 cp 值 估计 方法 是 使 用 交叉 验证 (参见 4.2.3 节 )， 步 
又 如 下 。 


(1) 将 数据 分 为 训练 集 和 验证 集 。 

(2) 使 用 训练 集 生长 树 模型 。 

(3) 逐步 剪 枝 ， 并 在 每 步 记录 cp 值 (使 用 训练 集 ) 。 

(4) 注意 在 验证 集 上 取得 最 小 误差 〈 损 失 ) 的 cp 值 。 

(5) 将 数据 重新 拆 分 为 训练 集 和 验证 集 ， 并 重复 树 模型 的 生长 、 剪 枝 和 记录 cp 过 程 。 

(6) 重复 执行 上 述 步 骤 ， 对 反映 每 个 树 的 最 小 误差 的 cp 值 求 平均 值 。 

(7) 回 到 原始 数据 ， 也 可 以 是 将 要 处 理 的 数据 上 ， 生 长 树 模 型 ， 并 在 最 优 cp 值 处 终止 执行 
算法 。 

在 rpart 软件 包 中 ， 可 以 使 用 参数 cptable 生成 一 个 表 ， 记 录 cp 值 及 相关 联 的 交叉 验证 误 

差 ( 即 R 语 言 中 的 xerror)， 进 而 确定 具有 最 低 交 又 验证 误差 的 cp 值 。 


6.2.5 ”预测 连续 值 






































使 用 树 模 型 预测 连续 值 (也 被 称 为 回归 ) 时 ， 遵 循 着 同样 的 逻辑 和 过 程 ， 不 同 之 处 是 使 用 
每 个 子 分 区 中 距离 均值 的 平方 偏差 (平方 误差 ) 来 度量 不 纯度 ， 并 通过 每 个 分 区 中 的 均 方 








误差 的 平方 根 判 断 预测 性 能 (参见 4.2.2 节 )。 


6.2.6 ”如 何 使 用 树 模 型 


企业 中 的 预测 建 模 者 面临 的 一 大 障碍 ， 就 是 所 使 用 的 预测 方法 在 本 质 上 是 一 种 “黑箱 ”， 
而 “黑箱 ”操作 会 引发 企业 中 其 他 人 员 的 反对 。 针 对 这 一 问题 ， 树 模型 至 少 在 以 下 两 个 方 
下 颇具 吸引 力 。 


。 树 模型 提供 了 一 种 可 视 化 的 数据 探索 工具 ， 有 助 于 人 们 掌握 重要 的 变量 ， 以 及 这 些 变 
之 间 是 如 何 关 联 的 。 树 模型 可 以 捕获 预测 变量 之 间 的 非 线性 关系 。 

。 树 模 型 所 提供 的 一 套 规则 可 以 有 效 地 与 非 专 业 人 士 交 流 。 这 有 助 于 数据 挖 据 项 目的 实施 
或 “推销 ”。 

然而 ， 对 于 预测 而 言 ， 从 多 个 树 模 型 中 获取 的 结果 通常 要 比 使 用 单个 树 更 为 强大 。 特 别 是 

随机 森林 和 Boosting 算法 几乎 总 能 提供 优越 的 预测 准确 性 和 性 能 (参见 6.3 节 和 6.4 节 )， 

但 也 失去 了 前 述 单个 树 模型 的 优点 。 



































二 


























本 节 要 点 
。 决策 树 生成 一 组 规则 ， 用 于 分 类 或 预测 结果 。 
。 规则 对 应 于 如 何 将 数据 划分 为 连续 的 子 分 区 。 
。 每 个 分 区 或 拆 分 指定 一 个 预测 变量 值 ( 即 拆 分 值 )， 将 分 区 中 数据 拆 分 为 高 于 和 低 
于 该 拆 分 值 的 两 组 记录 ( 即 子 分 区 )。 
。 在 每 个 阶段 ， 树 算法 选择 使 每 个 子 分 区 内 结果 的 不 纯度 最 小 的 拆 分 。 
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。 一 旦 算法 不 能 做 进一步 的 拆 分 ， 就 得 到 了 一 棵 完全 长 成 树 。 每 个 末端 节点 或 叶子 内 
的 记录 属于 相同 的 类 。 此 后 ,遵循 该 规则 ( 拆 分 ) 路 径 的 新 记录 ， 将 会 分 配 为 该 类 。 

。 完全 长 成 树 会 过 产生 拟 会 ， 因 此 为 了 使 模型 捕获 信号 而 非 噪声 ， 必 须 做 剪 枝 。 

。 虽然 随机 森林 和 Boosting 等 多 树 模型 算法 具有 更 好 的 预测 性 能 ， 但 失去 了 单个 树 模 
型 基于 规则 的 交流 能 力 。 











6.2.7 ”拓展 阅读 


。 Analytics Vidhya 网 站 的 内 容 团 队 于 2016 年 4 月 12 日 发 表 的 博客 文章 “A Complete Tutorial 
on Tree Based Modeling from Scratch (in R & Python)” 。 

。 Terry M. Therneau、EFlizabeth J. Atkinson 和 梅 奥 基金 会 (Mayo Foundation) 于 2015 年 6 月 
29 日 发 表 的 技术 报告 “An Introduction to Recursive Partitioning Using the RPART Routines” 。 


6.3 Bagging 和 随机 森林 


1907 年 ， 统 计 学 家 弗朗西斯 加 尔 顿 事 士 〈Sir Francis Galton) 造访 了 英国 一 个 县 的 集 市 。 
在 集 市 上 举行 了 一 场 比赛 ， 竞 猜 一 头 参展 公牛 屠宰 后 的 重量 。 当 时 有 800 人 给 出 了 自己 的 
猜测 ， 尽 管 各 个 猜测 值 千 差 万 别 ， 但 是 这 些 猜 测 值 的 均值 和 中 位 数 均 落 在 真实 重量 上 下 主 
动 1% 的 范围 内 。James Suroweicki 在 其 所 著 的 《 百 万 大 决定 : 世界 是 如 何 运 作 的 ? 》 一 书 
中 探讨 了 该 现象 。 该 原则 同样 适用 于 预测 模型 : 如 果 组 合 使 用 多 种 模型 ， 即 对 多 个 模型 取 
平均 或 多 数 票 ， 结 果 要 比 仅 选 用 一 个 模型 更 准确 。 






























































主要 术语 
集成 
使 用 一 组 模型 给 出 预测 。 
同义词 : 模型 平均 
Bagging 
对 数据 使 用 自助 法 构建 一 组 模型 的 通用 方法 。 
同义词 : 自助 法 聚合 
随机 森林 
使 用 决策 树 的 一 类 自助 法 聚合 估计 。 
同义词 : 自助 法 聚合 决策 树 
变量 重要 性 
对 预测 变量 在 模型 性 能 中 重要 性 的 测量 。 




















集成 方法 已 应 用 于 多 种 不 同 的 建 模 方法 ， 并 在 Netflix 竞赛 中 得 到 了 使 用 。 只 要 参赛 者 提出 
的 模型 能 将 Netflix 客户 的 电影 评分 预测 提升 10%， 就 可 获得 Netflix 提供 的 100 万 美元 的 
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奖金 。 集 成 方法 的 基本 实现 如 下 。 

(D 给 定 一 个 数据 集 ， 采 用 一 种 预测 模型 ， 并 记录 该 模型 的 预测 情况 。 

(2) 在 同一 数据 集 上 ， 依 次 使 用 多 个 模型 重复 步 又 1。 

(3) 对 于 每 个 要 预测 的 记录 ， 对 预测 值 取 均值 (或 加 权 均 值 ， 也 可 以 使 用 多 数 票 )。 

集成 方法 在 决策 树 中 得 到 了 最 系统 、 最 有 效 的 应 用 。 集 成 树 模型 是 一 种 强大 的 建 模 方法 ， 
易于 构建 出 好 的 预测 模型 。 

除了 上 面 的 简单 集成 算法 ， 集 成 模型 还 有 两 种 主要 的 变 体 ，Bagging 和 Boosting。 使 用 了 
树 模 型 的 集成 方法 被 称 为 随机 森林 模型 ， 或 者 提升 决策 树 (boosted tree) 模型 。 本 节 内 容 
主要 侧重 于 Bagging， 而 Boosting 将 在 6.4 节 中 介绍 。 























6.3.1 Bagging 方 法 

Bagging 方法 最 早 是 由 利 奥 . 布 莱 曼 在 1994 年 提出 的 ，Bagging 是 bootstrap aggregating 

(自助 法 聚合 ) 的 缩写 。 

Bagging 方法 和 集成 的 基本 算法 类 似 ， 只 是 Bagging 并 不 是 要 在 同一 数据 上 拟 合 所 有 的 模 

型 ， 而 是 对 使 用 每 个 自助 法 重 抽样 拟 合 一 个 新 模型 。 给 定 响应 变量 了 和 具有 P 个 预测 变量 

针 = 了 对, 国 …, 也 ,的 nn 条 记录 ， 下 面 给 出 形式 化 的 算法 描述 。 

(1) 初始 化 要 拟 合 的 模型 数 M 和 要 选取 的 记录 数 n(n <N)。 设 置 从 代 计数 m= 1。 

(2) 对 训练 数据 做 一 次 共有 n 条 记录 的 自助 重 抽样 ( 即 有 放 回 的 抽样 )， 得 到 子 样本 ,和 
X, (BH “bag” )。 

(3) 使 用 丈 和 部, 训练 模型 ， 创 建 一 组 决策 规则 六 ,(X) 。 

(4) 增加 模型 计数 器 ，m =m + 1。 如 果 m 不 大 于 M， 则 返回 第 1 步 。 


一 旦 六 预测 了 了 = ! 的 概率 ， 那 么 自助 法 聚合 估计 可 由 下 式 给 









































f= OOO + EO + + he) 


6.3.2 ”随机 和 森林 


随机 森林 是 将 Bagging 方法 应 用 于 决策 树 ， 并 做 了 一 个 重要 的 扩展 。 该 算法 不 仅 对 记录 做 
抽样 , 而 且 也 对 变量 做 抽样 “。 传 统 的 决策 树 在 确定 如 何 将 一 个 分 区 4 拆 分 为 子 分 区 时 , 通 
过 最 小 化 基尼 不 纯度 (参见 6.2.3 市 ) 等 标准 去 选择 变量 和 拆 分 点 。 在 随机 森林 算法 中 ， 
每 一 阶段 的 变量 选择 受 限 于 变量 的 一 个 随机 子 集 。 与 基本 的 树 算法 (参见 6.2.2 市 ) 相 比 ， 
随机 森林 算法 额外 添加 了 两 步 ， 分 别 是 在 6.3.1 节 中 介绍 的 Bagging 方法 ， 以 及 每 次 拆 分 时 
对 变量 的 自助 法 抽样 。 随 机 森林 算法 的 步骤 如 下 。 


(1) 从 记录 中 做 一 次 自助 法 〈 带 放 回 的 ) 抽样 ， 得 到 一 个 子 样本 。 





























注 4: 注意 ， 随 机 森林 是 一 个 注册 商标 。 商 标 归属 于 利 奥 : 布 莱 曼 和 阿 黛 尔 : 卡 特 勒 ， 并 授权 给 Salford 
Systems 公司 。“ 随 机 森林 ”一 词 并 不 存在 标准 的 非 注册 商标 名 称 ， 它 几乎 等 同 于 该 算法 ， 正 如 
“Kleenex” 一 词 几 平等 同 于 面巾纸 一 样 。 












































(2) 对 于 第 一 次 拆 分 ， 无 放 回 地 随机 抽样 p» (p<P) 个 变量 。 
(3) 对 于 每 组 抽样 变量 和 ,名 o。,,…, 书 ,,， 应 用 如 下 的 拆 分 算法 。 
a， 对 于 Xi 的 每 个 值 wm: 
- 将 分 区 4 中 满足 XYw<siw 的 记录 拆 分 为 一 个 分 区 ， 其 余 满 足 Xs > sw 的 记录 作 
为 男 一 个 分 区 ; 
- 测量 4 的 每 个 子 分 区 中 类 的 同 质 性 。 
b， 选 择 生成 分 区 内 最 大 类 同 质 性 的 si。 
(4) 选择 生成 分 区 内 最 大 类 同 质 性 的 变量 4, 和 拆 分 值 yw。 
(5) 继续 下 一 次 拆 分 ， 重 复 从 步骤 2 开始 的 上 述 步 又 。 
(6) 遵循 同一 过 程 ， 继 续 拆 分 ， 直 到 得 到 一 棵 完全 长 成 树 。 
(7) 返 回 步 又 1， 再 做 一 次 自助 法 抽样 ， 得 到 子 样本 ， 并 重复 上 述 过 程 。 


那么 每 一 步 需要 抽样 的 变量 数 是 多 少 呢 ? 一 条 经 验 规 则 是 选取 VP 个 ， 其 中 PP 是 预测 变量 
的 个 数 。 在 R 语言 中 ， 软 件 包 randomForest 提供 了 一 种 随机 森林 实现 。 下 面 的 代码 对 贷款 
数据 应 用 该 软件 包 (对 于 贷款 数据 的 介绍 ， 参 见 6.1 节 )。 

> library(randomForest) 


> rf <- randomForest(outcome ~ borrower_score + payment_ inc_ratio, 
data=Loan3000) 





















































Call: 
randomForest(formula = outcome ~ borrower_score + payment_inc_ratio, 
data = loan3000) 
Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 1 


O0B estimate of error rate: 38.53% 
Confusion matrix: 
paid off default class.error 
paid off 1089 425 0.2807133 
default 731 755 0.4919246 


默认 情况 下 ， 软 件 将 训练 500 个 树 模型 。 鉴 于 在 本 例 的 预测 集中 只 有 两 个 变量 ， 算 法 将 在 
每 一 步 随机 选取 是 拆 分 的 变量 ， 即 自助 法 抽样 得 到 的 子 样本 的 规模 为 1。 


误差 的 包 外 (OOB) 估计 是 指 将 训练 得 到 的 模型 作用 于 训练 集中 未 使 用 的 数据 上 时 ， 所 得 
到 的 错误 率 。 使 用 模型 的 输出 ， 可 以 绘制 出 OOB 误差 与 随机 森林 中 树 模型 的 数量 。 


error _ df = data.frame(error_rate = rf$err.rate[,'00B'], 
num_trees = 1:rf$ntree) 
ggpLot(error_df，aes(x=num_trees，y=error_rate)) + 
geom_line() 


结果 如 图 6-6 所 示 。 从 图 中 可 以 看 到 ， 错 误 率 在 超过 0.44 处 迅速 降低 ， 并 在 约 0.385 处 稳 
定 下 来 。 我 们 可 以 使 用 如 下 代码 ， 从 predict 函数 得 到 预测 值 并 绘图 。 


pred <- predict(Loan_Lda) 
rf_df <- cbind(loan3000, pred_default=pred[,'default']>.5) 
ggplot(data=rf_df, aes(x=borrower_score, y=payment_inc_ratio, 
color=pred_default, shape=pred_default)) + 
geom point(alpha=.6, size=2) + 
scale_shape_manual( values=c( 46, 4)) 
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图 6-6: 随 着 添加 更 多 的 树 模 型 ， 随 机 森林 的 准确 性 得 到 了 提升 
图 6-7 很 好 地 揭示 了 随机 森林 的 本 质 。 
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图 6-7: 应 用 于 贷款 拖欠 数据 的 随机 森林 的 预测 结果 
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随机 森林 方法 是 一 种 “黑箱 ”方法 。 与 单个 简单 树 模 型 相 比 ， 随 机 森林 可 以 做 出 更 准确 的 
预 出 ， 但 是 丧失 了 单个 树 模型 的 直观 决策 规则 。 随 机 森林 的 预测 也 存在 某 种 程度 的 噪声 。 
我 们 可 以 注意 到 ， 一 些 借款 者 的 分 值 非常 高 ， 这 表明 他 们 虽然 具有 较 高 的 信用 ， 但 最 终 预 
测 依然 是 贷款 拖欠 。 这 是 由 数据 中 的 一 些 异 常 记录 所 导致 的 ， 也 展示 了 随机 森林 过 拟 合 的 
危险 (参见 6.1.5 节 中 的 知识 点 “偏差 与 方差 的 权衡 ”) 。 


6.3.3 变量 的 重要 性 
在 为 具有 多 个 特征 和 记录 的 数据 构建 预测 模型 时 ， 随 机 森林 算法 的 强大 得 以 尽 显 。 该 算法 


可 以 自动 确定 重要 的 预测 变量 ， 并 可 以 发 现 交互 项 所 对 应 的 预测 变量 之 间 的 复杂 关系 〈 参 
见 4.5.4 市 )。 例 如 ， 下 面 的 代码 在 拟 合 模 型 时 ， 使 用 了 具有 全 部 列 的 贷款 拖欠 数据 。 



































> rf_all <- randomForest(outcome ~ ., data=loan_data, importance=TRUE) 
> rf_all 
Call: 
randomForest(formula = outcome ~ ., data = loan_data, importance = TRUE) 


Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 3 


O0B estimate of error rate: 34.38% 
Confusion matrix: 
paid off default class.error 
paid off 15078 8058 0.3482884 
default 7849 15287 0.3392548 


参数 importance=TRUE 设置 randomForest 函数 存储 关于 各 个 变量 重要 性 的 额外 人 信息。 函数 
varImpPLot 绘制 了 变量 的 相对 性 能 。 


varImpPlot(rf_all, type=1) 
varImpPlot(rf_all, type=2) 


结果 如 图 6-8 所 示 。 
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图 6-8: 使 用 完整 贷款 数据 拟 合 的 模型 ， 以 及 模型 中 变量 的 重要 性 
测定 变量 重要 性 有 两 种 方法 。 





。 参数 type=1: 
变量 重要 性 。 


局 





如 果 一 个 变量 的 值 是 随机 置换 的 ， 那 么 可 以 通过 降低 模型 的 正确 率 测 定 
对 变量 值 做 随机 置换 ， 可 以 移 除 变量 全 部 的 预测 能 力 。 这 时 ， 可 以 从 包 外 




















数据 计算 得 到 变量 的 重要 性 。( 由 此 可 见 ， 这 种 测量 方法 实际 上 是 一 种 交叉 验证 估计 。) 


。 参数 type=2: 


如 果 所 有 节点 是 使 用 某 个 变量 拆 分 的 ， 那 么 可 以 通过 降低 基尼 不 纯度 分 





值 的 均值 测定 变量 的 重要 性 (参见 6.2.3 节 )。 这 种 方法 测量 了 变量 对 于 提升 节点 纯度 的 
贡献 度 。 它 基于 训练 集 ， 因 此 可 靠 性 要 低 于 由 包 外 数据 计算 的 度量 。 

















图 6-8 的 上 图 和 下 图 分 别 显 示 了 根据 正确 率 的 降低 和 基尼 不 纯度 的 降低 这 两 种 方法 测 得 的 
变量 重要 性 。 两 个 图 中 的 变量 都 是 按 正确 率 从 高 到 低 的 顺序 排列 的 。 这 两 种 测量 方式 得 到 
的 变量 重要 性 分 值 完全 不 同 。 

既然 正确 率 的 降低 是 更 可 靠 的 度量 ,我 们 为 什么 还 要 使 用 基尼 不 纯度 的 降低 这 种 测量 呢 ? 
默认 情况 下 ，randomForest 函数 只 计算 基尼 不 纯度 。 该 算法 一 定 会 给 出 基尼 不 纯度 ， 但 是 
计算 变量 的 模型 正确 率 则 需要 额外 进行 一 些 计 算 ， 包括 随机 置换 并 预测 数据 。 在 计算 的 复 
杂 度 很 重要 的 情况 下 ， 例 如 在 需要 拟 合 数 千 个 模型 的 生产 环境 中 ， 我 们 不 应 额外 增加 计 
算 量 。 此 外 ， 基 尼 不 纯度 降低 揭示 了 随机 森林 在 生成 拆 分 规则 中 使 用 了 哪些 变量 (回想 一 
下 ， 该 信息 很 容易 在 单个 简单 树 模型 中 看 到 ， 但 是 在 随机 森林 中 就 会 丢失 )。 通 过 查看 基 
尼 不 纯度 降低 与 模型 正确 率 这 两 种 测定 变量 重要 性 方法 之 间 的 差异 ， 有 可 能 会 找 出 一 些 改 
进 模型 的 方法 。 


6.3.4” 超 参数 


和 许多 统计 机 器 学 习 算 法 一 样 ， 随 机 森林 也 可 以 看 成 一 种 “黑箱 ”算法 ， 但 是 在 箱子 上 会 
提供 一 些 调节 算法 工作 方式 的 旋钮 。 我 们 称 这 些 旋钮 为 超 参 数 。 超 参数 是 一 些 需要 在 拟 合 
模型 前 设置 的 参数 ， 它 们 并 不 会 在 算法 训练 过 程 中 得 到 优化 。 虽 然 在 传统 的 统计 模型 中 ， 
我 们 需要 做 出 一 些 选择 〈 例 如 在 回归 模型 中 需要 选 定 预测 变量 ) ， 但 是 随机 森林 的 超 参数 
更 为 关键 ， 尤 其 对 于 避免 产生 过 拟 合 的 问题 。 对 于 随机 木林， 我们 需要 介绍 两 个 重要 的 超 
参数 。 
























































nodesize 
末端 节点 〈 即 树 的 叶子 ) 的 最 小 规模 。 对 于 分 类 ， 默 认 值 为 1， 对 于 回归 ， 默 认 值 为 5。 
maxnodes 


每 个 决策 树 中 的 最 大 节点 数 。 默 认 情 况 下 ， 没 有 限制 。 需 拟 合 的 最 大 树 会 受到 nodesize 
的 限制 。 
我 们 可 能 想 忽略 这 些 参数 ， 只 使 用 默认 值 。 但 是 ， 如 果 对 噪声 数据 应 用 随机 木林， 那么 使 
用 默认 值 可 能 会 导致 过 拟 合 。 当 增 大 nodesize 或 设置 maxnodes 后 ， 算 法 将 拟 合 一 个 较 小 
的 树 模型 ， 而 且 不 太 可 能 给 出 假 的 预测 规则 。 我 们 可 以 使 用 交叉 验证 (参见 4.2.3 市 )， 检 
验 设置 不 同 超 参 数值 的 效果 。 


























本 节 要 点 

。 通过 组 合 多 个 模型 的 结果 ， 集 成 模型 提高 了 模型 正确 率 。 

。 Bagging 是 一 类 特殊 的 集成 模型 ， 它 使 用 数据 的 自助 法 抽样 拟 合 多 个 模型 ， 并 对 模 
型 取 平 均值 。 

。 随机 森林 是 一 种 应 用 于 决策 树 的 特殊 Bagging 方法 。 除 了 对 数据 重 抽样 之 外 ， 随 机 
森林 算法 还 在 拆 分 树 时 对 预测 变量 做 抽样 。 

。 对 变量 重要 性 的 一 种 度量 是 随机 森林 的 一 种 有 用 输出 。 变 量 重 要 性 根据 变量 对 模型 
正确 率 的 贡献 度 ， 对 变量 排序 。 

。 随机 森林 具有 一 组 超 参 数 。 可 以 使 用 交叉 验证 调整 超 参 数 ， 以 避免 产生 过 拟 合 。 
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6.4 Boosting 


集成 模型 已 经 成 为 预测 建 模 的 一 种 标准 工具 。Boosting 是 创建 集成 模型 的 一 种 通用 方法 。 
它 与 Bagging (参见 6.3 节 ) 几乎 同时 被 提出 。 和 Bagging 一 样 ，Boosting 也 最 常用 于 决策 
树 。 尽 管 两 者 之 间 具 有 很 多 相似 之 处 ， 但 是 Boosting 采用 了 完全 不 同 的 方法 ， 实 现 也 更 为 
庞杂 。 因 此 ，Bagging 可 以 在 略微 调整 的 情况 下 使 用 ， 但 在 应 用 Boosting 时 则 需要 更 为 慎 
重 。 如 果 我 们 用 汽车 来 比喻 这 两 种 方法 ， 那 么 Bagging 可 以 看 成 本 田 雅 闻 ， 可 靠 并 且 稳 定 ， 
而 Boosting 可 以 看 成 保时捷 ， 尽 管 强大 ， 但 需要 谨慎 驾驶 。 


在 线性 回归 模型 中 ， 经 常 需要 检查 残 差 的 情况 ， 以 查看 是 否 可 以 改进 拟 合 (参见 4.6.4 
节 )。Boosting 更 进一步 ， 它 对 一 系列 模型 做 拟 合 ， 并 使 用 当前 的 拟 合 模型 去 最 小 化 之 前 
模型 的 误差 。Boosting 算法 有 几 种 常见 的 变 体 ， 分 别 是 Adaboost、 梯 度 提升 和 随机 梯度 
提升 。 其 中 ， 随 机 梯度 提升 最 通用 也 是 使 用 最 广泛 的 。 实 际 上 ， 如 果 选 择 了 正确 的 参数 ， 
Boosting 算法 可 以 与 随机 森林 相 媲 





























主要 术语 
集成 
使 用 一 组 模型 做 出 预测 。 


同义词 : 模型 平均 
Boosting 

在 拟 合 一 组 模型 时 所 使 用 的 一 种 通用 方法 。Boosting 在 每 轮 连 续 的 拟 合 中 ， 会 对 

具有 更 大 残 差 的 记录 赋予 更 大 的 权重 。 





Adaboost 
Boosting 算法 的 一 种 早期 实现 ， 它 根据 残 差 的 情况 对 数据 重新 加 权 。 
梯度 提升 


一 种 更 通用 的 Boosting 算法 。 它 将 问题 转化 为 代价 函数 最 小 化 的 问题 。 


随机 梯度 提升 “SGD) 
最 常用 的 Boosting 算法 。 它 在 每 轮 拟 合 中 加 入 了 对 记录 和 数据 列 的 重 抽样 。 


正则 化 
通过 在 代价 函数 中 对 模型 参数 的 数量 添加 惩罚 项 ， 避 免 产 生 过 拟 合 。 
超 参 数 


在 拟 合算 法 之 前 就 需要 设 定 的 参数 。 











6.4.1 Boosting 算 法 


各 种 Boosting 算法 背后 的 基本 理念 大 致 相同 。 其 中 ，Adaboost 算法 是 最 易于 理解 的 ， 该 算 
法 的 步骤 如 下 。 





(GD 初始 化 要 拟 合 模型 的 最 大 数量 M， 并 设置 迭代 计数 器 m = 1。 初 始 化 观测 值 权 重 省 = 六 ， 
其 中 i= 1 2,…, N。 初 始 化 集成 模型 户 =0。 

(2) 使 用 广 训练 模型 。 其 中 ， 广 使 用 使 加 权 误差 e, 最 小 化 的 观测 权重 ww ww。 加 权 
误差 e, 定义 为 误 人 总 和 。 

(3) 将 模型 添加 到 集成 中 : 户 = 忆 ,+o 记 ,其 中 必 -os 和 人 ) 。 


(4) 更 新 权重 wi, w,,…, ww， 使 误 分 类 观测 值 的 权重 增加 。 家 重 增加 的 规模 取决 于 4。 | 
越 大 ， 权 重 增加 得 越 大 。 
(5) 增加 模型 计数 器 ，m = m +1。 如果 m 三 M， 返 回 步 又 1。 


Boosting 算法 的 估计 值 由 下 式 给 出 : 


F=f +Q, + + oo fy 
Boosting 算法 通过 增加 误 分 类 观测 值 的 权重 ， 强 制 模型 在 训练 中 偏重 于 表现 不 佳 的 数据 。 
因子 ww 确保 了 误差 较 低 的 模型 具有 更 大 的 权重 。 


梯度 提升 算法 与 Adapoost 类 似 ， 只 是 它 将 问题 转化 为 代价 函数 的 优化 问题 。 梯 度 提升 并 不 
是 调整 权重 ， 而 是 根据 伪 残 差 去 拟 合 模型 ， 这 使 得 在 训练 中 偏重 于 较 大 的 残 差 。 梯 度 随机 
提升 遵循 随机 森林 的 理念 ， 即 在 每 一 个 阶段 对 观测 值 和 预测 变量 抽样 ， 由 此 在 算法 中 加 入 
了 随机 性 。 
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6.4.2 XGBoost 软 件 


XGBoost 是 最 广 为 使 用 的 Boosting 公共 域 软件 ， 它 是 随机 梯度 提升 算法 的 一 种 实现 ， 最 初 
是 由 华盛顿 大 学 的 陈 天 奇 和 Carlos Guestrin 开发 的 。XGBoost 是 一 种 具有 多 种 选项 的 计算 
很 高 效 的 实现 ， 并 在 大 多 数 主流 数据 科学 语言 中 以 软件 包 形 式 提 供 。 在 及 语言 中 ， 提 供 
XGBoost 的 软件 包 是 xgboost。 


软件 包 中 的 函数 xgboost 提供 了 多 个 可 调整 并 且 应 该 调整 的 参数 (参见 6.4.4 市 )。 其 中 ， 
两 个 非常 重要 的 参数 是 subsanpte 和 eta。subsample 参数 控制 每 次 迭代 时 应 该 被 抽样 的 部 
分 观测 值 ，eta 设置 了 Boosting 算法 中 0 的 收缩 因子 (参见 6.4.1 节 )。 设 置 subsample 参 
数 可 以 使 Boosting 算法 类 似 随机 森林 ， 只 是 在 完成 抽样 后 不 放 回 样本 。 收 缩 因 子 eta 通 
二 降低 权重 的 变化 ， 防 止 产生 过 拟 合 (权重 变化 较 小 ， 意 味 着 算法 更 不 易于 过 拟 合 训练 数 
据 )。 在 下 面 的 代码 中 ， 我 们 对 只 有 两 个 预测 变 量 的 贷款 数据 应 用 xgboost。 
library(xgboost) 
predictors <- data.matrix(loan3000[, c('borrower_score', 
'payment_inc_ratio' )]) 
label <- as.numeric(loan3000[,'outcome'])-1 
xgb <- xgboost(data=predictors, label=label, 
objective = "binary:logistic", 
params=list(subsample=.63, eta=0.1), nrounds=100) 


注意 ，xgboost 不 支持 公式 语法 ， 因 此 需要 将 预测 变量 转换 为 R 语言 的 data.matrix 对 象 ， 
而 响应 变量 需要 转换 为 0/1 二 元 变量 。 参 数 objective 指定 了 xgboost 函数 所 处 理 的 问题 类 
型 。xgboost 根据 该 参数 选取 优化 指标 。 
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算法 的 预测 值 可 以 使 用 predict 国 数 得 到 。 由 于 在 本 例 中 只 使 用 了 两 个 变量 ， 因 此 只 绘制 
预测 变量 和 预测 值 。 
pred <- predict(xgb, newdata=predictors) 
xgb_df <- cbind(loan3000, pred_default=pred>.5, prob_default=pred) 
ggplot(data=xgb_df, aes(x=borrower_score, y=payment_inc_ratio, 
color=pred_default, shape=pred_default)) + 
geom point(alpha=.6, size=2) 


结果 如 图 6-9 所 示 。 从 定性 的 角度 来 看 ， 算 法 的 输出 类 似 于 图 6-7 中 随机 森林 做 出 的 预测 。 
在 预测 中 存在 一 些 噪声 ， 因 为 有 些 借贷 信用 评分 很 高 的 借款 者 仍 被 预测 为 拖欠 。 
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图 6-9: 将 XGBoost 应 用 于 贷款 拖欠 数据 得 到 的 预测 结果 


6.4.3 正则 化 : 避免 过 拟 合 


如 果 盲 目地 应 用 xgboost 函数 ， 可 能 会 过 拟 合 训练 数据 ， 进 而 导致 模型 不 稳定 。 过 拟 合 问 
题 是 两 方面 的 。 


。 应 用 于 不 在 训练 集中 的 新 数据 时 ， 模 型 的 正确 率 会 降低 。 
。 模型 给 出 的 预测 是 高 度 可 变 的 ， 导 致 了 结果 不 稳定 。 


任何 建 模 技术 都 可 能 产生 过 拟 合 。 例 如 ， 如 果 回 归 方程 中 包含 了 过 多 的 变量 ， 那 么 模型 可 
能 会 给 出 虚假 预测 。 然 而 对 于 大 多 数 统计 技术 而 言 ， 可 以 通过 审慎 地 选择 预测 变量 来 避免 
产生 过 拟 合 。 即 便 是 随机 森林 ， 通 常 也 能 给 出 一 个 合理 的 模型 ， 而 无 须 调整 参数 。 但 这 并 
不 适用 于 xgboost。 下 面 的 代码 在 训练 数据 上 使 用 xgboost 拟 合 贷款 数据 ， 模 型 中 考虑 了 全 


部 变量 。 
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> predictors <- data.matrix(loan_ data[,-which(names(loan_data) %in% 
'outcome' )]) 
> label <- as.numeric(loan data$outcome)-1 
> test idx <- sample(nrow(loan_data), 10000) 
> xgb_default <- xgboost(data=predictors[-test idx,], 
label=label[ -test_idx], 
objective = "binary:logistic", nrounds=250) 
> pred_default <- predict(xgb default, predictors[test idx,]) 
> error_default <- abs(label[test idx] - pred default) > 0.5 
> xgb_default$evaluation_log[250,] 
iter train_error 
1: 250 0.145622 
> mean(error_default) 
[1] 0.3715 


测试 集 由 从 完整 数据 集中 随机 抽取 的 10 000 条 记录 构成 ， 而 训练 集 则 由 剩余 的 记录 构成 。 
Boosting 算法 在 训练 集 上 的 错误 率 仅 约 为 14.6% ， 而 在 测试 集 上 的 错误 率 则 高 得 多 ， 约 为 
37.2%。 这 是 由 过 拟 合 导致 的 。Boosting 算法 虽然 很 好 地 解释 了 训练 集 的 变异 性 ， 但 是 它 
生成 的 预测 规则 并 不 适用 于 新 数据 。 


为 了 避免 产生 过 拟 合 ，Boosting 算法 需要 设置 多 个 参数 ， 其 中 包括 上 一 节 中 介绍 的 eta 和 
subsample。 男 一 种 方法 是 使 用 正则 化 。 正 则 化 是 一 种 通过 修改 代价 函数 去 惩罚 模型 复 厅 
度 的 技术 。 在 决策 树 的 拟 合 中 ， 使 用 最 小 化 基尼 不 纯度 分 值 (参见 6.2.3 节 ) 等 代价 准则 。 
在 xgboost 中 ， 可 以 通过 添加 一 个 衡量 模型 复杂 度 的 项 ， 实 现 对 代价 函数 的 修改 。 


xgboost 提供 了 两 个 用 于 模型 正则 化 的 参数 : atpha 和 Lanbda， 它 们 分 别 表示 曼哈顿 距离 和 
欧 氏 距离 的 平方 (参见 6.1.2 节 )。 增 大 这 两 个 参数 将 会 惩罚 更 复杂 的 模型 ， 并 减 小 拟 合 树 
模型 的 规模 。 例 如 ， 下 面 的 代码 探索 了 将 Lambda 设置 为 1000 的 情况 。 


> xgb_penalty <- xgboost(data=predictors[-test idx,], 
label=label[ -test_idx], 
params=list(eta=.1, subsample=.63, lambda=1000), 
objective = "binary:logistic", nrounds=250) 
pred_penalty <- predict(xgb_penalty, predictors[test idx,]) 
> error_penalty <- abs(label[test idx] - pred_penalty) > 0.5 
xgb_penalty$evaluation_log[250,] 
iter train_error 
1: 250 0.332405 
> mean(error_penalty) 
[1] 0.3483 


现在 ， 我 们 得 到 的 训练 误差 仅 略 低 于 测试 集 上 的 误差 。 


函数 predict 提供 了 一 个 便利 的 参数 ntreelimit， 该 参数 强制 在 预测 中 仅 使 用 前 i 个 树 模 
型 。 这 让 我 们 在 添加 更 多 的 模型 时 ， 可 以 直接 比较 样本 内 和 样本 外 的 错误 率 。 


> error_default <- rep(0, 250) 

> error_penalty <- rep(0, 250) 

> for(i in 1:250){ 
pred_def <- predict(xgb_default, predictors[test idx,], ntreelimit=i) 
error_default[i] <- mean(abs(label[test idx] - pred_def) >= 0.5) 
pred_pen <- predict(xgb_penalty, predictors[test idx,], ntreelimit = i) 
error_penalty[i] <- mean(abs(label[test idx] - pred_pen) >= 0.5) 
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在 模型 输出 的 xgb_default$evaluation_log 项 中 ， 返 回 了 训练 集 上 的 误差 。 结 
差 ， 我 们 就 可 以 绘制 误差 与 迭代 次 数 的 关系 。 


> errors <- rbind(xgb_default$evaluation_log, 
xgb_penalty$evaluation Log， 
data.frame(iter=1:250, train_error=error_default), 
data.frame(iter=1:250, train_error=error_penalty)) 
> errorsStype <- rep(c('default train', 'penalty train', 
'default test', 'penalty test'), rep(250, 4)) 
> ggplot(errors, aes(x=iter, y=train error, group=type)) + 
geom_ line(aes(linetype=type, color=type)) 


结果 如 图 6-10 所 示 。 该 医 展示 了 默认 模型 在 训练 集 上 的 预测 准确 性 稳定 地 提 
试 集 上 的 准确 性 却 降低 了 。 惩 罚 模型 并 不 会 表现 出 这 种 行为 。 
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6-10: 默认 XGBoost 与 惩罚 XGBoost 的 错误 率 对 比 





岭 回 归 和 Lasso 回归 


差 平 方 和 ， 并 对 系数 的 数量 和 大 小 添加 惩罚 项 : 
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对 模型 的 复杂 性 添加 惩罚 项 ， 有 助 于 避免 产生 过 拟 合 。 该 理念 可 追溯 至 20 世纪 70 年 
代 。 最 小 二 乘 回归 会 最 小 化 残 差 平方 和 (RSS) ， 参 见 4.1.3 节 。 而 岭 回 归 则 最 小 化 残 











4 的 值 决 定 了 系数 被 惩罚 的 程度 。 由 较 大 的 值 所 生成 的 模型 不 太 可 能 过 拟 合 数据 。 
Lasso 回归 与 此 类 似 ， 只 是 其 惩罚 项 使 用 的 是 曼哈顿 距离 ， 而 非 欧 氏 距离: 
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前 面 介 绍 的 xgboost 参数 Lambda 和 alpha 具有 类 似 的 作用 。 








6.4.4 超 参数 和 交 义 验证 
xgboost 函数 具有 一 组 令 人 望而却步 的 超 参 数 ， 相 关 介 绍 可 参见 本 布 的 知识 点 “XGBoost 
超 参 数 "。 正 如 6.4.3 节 中 介绍 的 ， 特 定 的 参数 选择 可 以 显著 地 改进 模型 拟 合 。 鉴 于 超 参数 
有 大 量 的 组 合 ， 我 们 应 该 如 何 从 中 做 出 选择 呢 ? 这 个 问题 的 标准 解决 方案 是 使 用 交叉 验 
证 ， 参 见 4.2.3 节 。 交 叉 验 证 将 数据 随机 拆 分 为 天 个 不 同 的 组 ， 也 被 称 为 玉 折 。 对 于 每 折 ， 
交叉 验证 使 用 非 折 内 数据 训练 模型 ， 然 后 使 用 折 内 数据 评估 模型 。 这 为 模型 在 样本 外 数据 
上 的 正确 率 提供 了 一 种 度量 。 最 佳 的 一 组 超 参数 可 以 由 总 体 误差 最 低 的 模型 给 出 ， 总 体 误 
差 是 通过 对 每 折 的 误差 取 平均 计算 得 到 的 。 
为 了 介绍 这 一 技术 ， 我 们 将 其 应 用 于 xgboost 国 数 的 参数 选择 。 在 本 例 中 ， 我 们 使 用 了 两 个 
参数 : 收缩 参数 eta (参见 6.4.2 节 ) 和 表示 树 模 型 最 大 深度 的 参数 max_depth。max_depth 
定义 了 叶 节 点 到 树 根 的 最 大 深度 ， 默 认 值 为 6。 这 提供 了 另 一 种 控制 过 拟 合 的 方式 ， 即 层 数 
更 多 的 树 模型 往往 更 为 复杂 ， 并 可 能 会 过 拟 合 数据 。 首 先 ， 我 们 设置 折 数 和 参数 列表 。 

> N <- nrow(Loan_data) 

> fold_number <- sample(1:5, N, replace = TRUE) 


> params <- data.frame(eta = rep(c(.1, .5, .9), 3), 
max_depth = rep(c(3, 6, 12), rep(3,3))) 


然后 我 们 应 用 前 面 介绍 的 算法 ， 使 用 5 折 计 算 每 个 模型 和 每 折 的 误差 。 


> error <- matrix(0, nrow=9, ncol=5) 
> for(i in 1:nrow(params)){ 
> for(k in 1:5){ 
fold idx <- (1:N)[fold number == k] 
xgb <- xgboost(data=predictors[-fold idx,], label=label[-fold_ idx], 
params = list(eta = params[i., 'eta'], 
max_depth = params[i, 'max_depth']), 
objective = "binary:logistic", nrounds=100, verbose=0) 
pred <- predict(xgb, predictors[fold idx,]) 
error[i, k] <- mean(abs(label[fold idx] - pred) >= 0.5) 
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J 
由 于 一 共 需 要 拟 合 45 个 模型 ， 因 此 代码 可 能 会 运行 一 段 时 间 。 误 差 存 储 在 一 个 矩阵 对 象 
中 ， 和 矩阵 的 行 是 模型 ， 列 为 折 数 。 我 们 可 以 使 用 函数 rowMeans 比较 各 个 参数 集 的 错误 率 。 
> avg_error <- 100 * rowMeans(error) 


> cbind(params, avg_error) 
eta max_depth avg_error 
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1 0.1 3 35.41 
2 0.5 3 35.84 
3 0.9 3 36.48 
4 0.1 6 35.37 
5 0.5 6 37.33 
6 0.9 6 39 .41 
7 0.1 12 36.70 
8 0.5 12 38.85 
9 0.9 12 40.19 








交叉 验证 指出 ， 使 用 了 较 小 的 eta 值 并 且 层 数 较 少 的 树 模型 ， 会 得 出 更 准确 的 结果 。 由 于 这 样 的 
模型 也 更 稳定 ， 所 以 应 使 用 的 最 佳 参数 是 eta = 0.1，max_depth = 3 (也 可 能 是 nax_depth = 6)。 











XGBoost 超 参 数 


xgboost 的 超 参 数 主要 用 于 在 过 拟 合 与 正确 率 和 计算 复杂 度 之 间 取 得 平衡 。 关 于 
XGBoost 超 参 数 的 完整 介绍 ， 参 见 xgboost 的 文档 。 


eta 
值 位 于 0 和 1 之 间 的 收缩 因子 ， 即 Boosting 算法 的 a。 默 认 值 为 0.3。 但 是 对 于 嗓 
声 数据 ， 推 荐 使 用 更 小 的 值 ， 例 如 0.1。 


nrounds 
设置 Boosting 算法 的 循环 次 数 。 如 果 将 eta 设置 为 一 个 较 小 的 值 ， 这 会 增加 循环 
的 次 数 ， 因 为 算法 学 习 的 速度 更 慢 。 只 要 在 计算 中 设置 了 一 些 防止 过 拟 合 的 参数 ， 
那么 运行 更 多 轮 循环 也 没 问 题 。 

max_depth 
设置 树 模 型 的 最 大 深度 ,默认 值 为 6。 与 随机 森林 拟 合 非常 深 的 树 模型 不 同 ， 
Boosting 算法 通常 会 拟 合 一 个 层 数 不 多 的 树 模型 。 这 样 做 的 优点 是 ， 可 以 避免 由 
噪声 数据 导致 模型 中 出 现 虚假 的 复杂 交互 。 

subsample 和 colsample_bytree 
subsample 指定 了 做 无 放 回 抽样 的 部 分 记录 ，colsample_bytree 指定 了 在 拟 合 树 模 
型 中 要 抽样 的 部 分 预测 变量 。 这 些 参数 类 似 于 随机 森林 中 使 用 的 相应 参数 ， 有 助 
于 吉 免 产生 过 拟 合 。 

lambda 和 alpha 
帮助 控制 过 拟 合 的 正则 化 参数 (参见 6.4.3 节 )。 








。 Boosting 是 一 类 基于 对 一 组 模型 做 拟 合 的 集成 模型 。 在 连续 的 每 轮 拟 合 中 ， 
Boosting 算法 会 为 具有 更 大 残 差 的 记录 赋予 更 大 的 权重 。 

。 随机 梯度 提升 是 最 通用 的 Boosting 算法 ， 具 有 最 佳 性 能 。 随 机 梯度 提升 最 常见 的 形 
式 是 使 用 树 模 型 。 











。 XGBoost 是 一 种 广 为 使 用 的 随机 梯度 提升 软件 包 ， 它 计算 高 效 。 所 有 数据 科学 常用 
的 语言 中 都 提供 了 XGBoost。 

。 Boosting 容易 过 拟 合 数据 。 为 了 避免 产生 过 拟 合 ， 需 要 调整 超 参 数 。 

。 正则 化 通过 在 模型 的 参数 数量 〈 例 如 , 树 的 规模 ) 上 添加 惩罚 项 ,避免 产 生 过 拟 合 。 

。 鉴于 Boosting 算法 需要 设置 大 量 的 超 参 数 ， 交 又 验证 尤为 重要 。 














6.5 小 结 


本 章 介绍 了 两 种 分 类 和 预测 方法 ， 它 们 并 非 从 拟 合 整个 数据 集 的 结构 化 模型 (如 线性 回 
归 ) 着 手 ， 而 是 从 数据 本 身 进行 灵活 、 局 部 的 学 习 。K 最 近邻 是 一 个 简单 的 过 程 ， 它 只 查 
看 相似 的 记录 ， 并 将 预测 记录 指定 为 相似 记录 中 的 多 数 类 (或 均值 )。 树 模型 探索 预测 变 
量 的 各 种 截止 值 〈 拆 分 值 )， 用 于 将 数据 迭代 地 拆 分 为 分 类 逐步 趋同 的 分 区 和 子 分 区 。 最 
有 效 的 拆 分 值 会 构成 一 条 用 于 分 类 或 预测 的 路 径 ， 或 称 为 “规则 ”。 树 模型 是 一 类 非常 强 
大 的 预测 工具 ， 通 常会 给 出 优 于 其 他 方法 的 结果 ， 因 此 得 到 了 广泛 的 使 用 。 树 模型 催生 了 
多 种 集成 方法 ， 例 如 随机 森林 、Boosting、Bagging 等 ， 它 们 提高 了 树 模 型 的 预测 能 
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7 章 


第 
无 监督 学 习 





无 监督 学 习 指 的 是 无 须 使 用 已 标记 数据 ( 即 输 出 已 知 的 数据 ) 训练 模型 ， 便 可 以 抽取 数据 
内 涵 的 统计 学 方法 。 在 第 4 章 和 第 5 章 中 ， 我 们 的 目标 是 使 用 一 组 预测 变量 构建 一 个 用 于 
预测 响应 变量 的 模型 (规则 集合 )。 无 监督 学 习 也 对 数据 建 模 ， 但 并 不 区 分 响应 变量 和 预 
测 变量 。 


无 监督 学 习 可 以 有 多 种 目标 。 在 一 些 情 况 下 ， 无 监督 学 习 方法 可 用 于 对 缺少 有 标记 响应 的 
数据 创建 预测 规则 。 聚 类 方法 可 用 于 识别 数据 中 有 意义 的 分 组 。 例 如 ， 使 用 一 个 网 站 的 
Web 点 击 数 和 用 户 统计 数据 ， 可 以 对 不 同类 型 的 用 户 进行 分 组 ， 进 而 根据 各 组 用 户 的 特性 
实现 网 站 的 个 性 化 。 


在 另 一 些 情况 下 ， 无 监督 学 习 的 目标 可 能 是 将 数据 降 维 至 可 管理 的 一 组 变量 ， 进 而 将 降 维 
的 变量 集 作为 回归 或 分 类 等 预测 模型 的 输入 。 例 如 ， 在 工业 流程 中 可 能 要 监控 数 千 个 传 感 
器 。 我 们 或 许 不 需要 考虑 每 个 传感器 的 数据 流 ， 仅 通过 将 数据 规约 为 一 个 更 小 的 特征 集 ， 
就 能 建立 一 个 更 强大 并 可 解释 的 模型 ,预测 一 个 流程 是 否 会 失败 。 

最 后 ， 我 们 可 以 将 无 监督 学 习 看 成 为 了 适应 海量 变量 和 记录 ， 而 对 探索 性 数据 分 析 (参见 


第 1 章 ) 做 的 一 个 扩展 。 其 目的 是 深入 探索 一 组 数据 及 其 中 各 个 变量 之 间 的 关系 。 使 用 无 
监督 技术 可 以 筛选 并 分 析 这 些 变量 ， 进 而 发 现 各 变量 间 的 关系 。 
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无 监督 学 习 和 预测 


在 回归 和 分 类 等 预测 问题 中 ,无 监督 学 习 可 以 发 挥 重要 作用 。 在 某 些 情况 下 ,我 们 项 
望 能 在 缺少 标记 数据 的 情况 下 预测 一 个 类 别 。 例 如 ， 我们 可 能 想 使 用 一 组 卫星 传 感 数 
据 ， 预 测 某 个 地 区 的 植被 类 型 。 鉴 于 我 们 并 没有 响应 变量 去 训练 模型 ， 这 时 可 使 用 聚 
类 方法 识别 其 中 的 常见 模式 ， 并 对 地 理 区 域 进行 分 类 。 


聚 类 是 一 种 解决 “ 冷 启动 问题 ”的 尤为 重要 的 工具 。 在 冷 启动 问题 中 ,例如 推出 新 的 
营销 活动 、 识 别 潜在 的 新 型 欺诈 或 垃圾 邮件 ,可 能 一 开始 我 们 并 没有 任何 响应 可 用 于 
训练 模型 。 随 着 时 间 的 推移 和 数据 的 积累 ， 我 们 才 有 可 能 更 多 地 了 解 系统 ， 并 构建 传 
统 的 预测 模型 。 但 是 ， 聚 类 通过 确定 如 何 拆 分 总 体 ， 让 我 们 可 以 更 快 地 开始 学 习 过 程 。 
无 监督 学 习 也 是 回归 和 分 类 技术 的 重要 组 成 部 分 。 对 于 大 数据 而 言 ， 如 果 总 体 中 的 某 
个 子 集 并 不 具有 代表 性 ， 那 么 训练 好 的 模型 可 能 会 在 该 子 集 上 表现 不 佳 。 聚 类 可 以 识 
别 并 标记 子 集 ， 进 而 对 各 个 子 集 拟 合 不 同 的 模型 。 或 者 ， 也 可 以 用 一 些 特定 的 特征 去 
表示 子 集 ， 并 强制 整个 模型 明确 地 以 所 识别 的 子 集 为 预测 因子 。 








.1 主 成 分 分 析 


7 
变量 常常 会 一 起 发 生变 化 ( 共 变 )。 实 际 上 ， 不 同 变量 的 部 分 变化 可 能 会 重 倒 。 主 成 分 分 
析 就 





龟 币 
PCA) 就 是 一 种 能 够 发 现 数值 型 变量 共 变 方式 的 技术 '。 
主要 术语 

主 成 分 
预测 变量 的 一 种 线性 组 合 

载荷 
将 预测 因子 转换 为 成 分 的 过 程 中 所 使 用 的 权重 值 。 
同义词 : 权重 

陡坡 图 


一 种 展示 各 成 分 方差 的 绘图 ， 图 中 显示 了 各 成 分 的 相对 重要 性 











主 成 分 分 析 的 基本 理念 是 ， 将 多 个 数值 型 预测 变量 组 合成 一 组 规模 较 小 的 变量 ， 它 们 是 原 
始 变量 的 加 权 线 性 组 合 。 所 形成 的 规模 较 小 的 一 组 变量 被 称 为 主 成 分 。 主 成 分 可 以 “ 解 
释 ” 完 整 变量 集 的 大 部 分 变异 性 ， 同 时 降低 数据 维度 。 在 构建 主 成 分 中 所 使 用 的 权重 ， 体 
现 了 原始 变量 对 新 的 主 成 分 的 相对 贡献 。 











注 1: 本 章 中 各 节 的 内 容 ， 版权 属于 本 书 作者 彼得 : 布鲁斯 和 安德鲁 ' 布鲁斯 ，@ 2017 Datastats, LLC。 使 用 
需 经 许可 。 














主 成 分 分 析 最 早 是 由 卡尔 .皮尔 逊 (Karl Pearson) 在 1901 年 发 表 的 一 篇 论文 中 提出 的 。 
这 篇 论文 可 能 是 首 篇 公开 发 表 的 无 监督 学 习 论文 。 皮 和 尔 逊 在 论文 中 指出 ， 在 许多 问题 中 ， 
预测 变量 存在 变异 性 ， 因 此 他 提出 了 对 该 变异 性 建 模 的 主 成 分 分 析 技 术 。 主 成 分 分 析 可 以 
看 成 一 种 无 监督 版 的 线性 判别 分 析 (参见 5.2 节 )。 


7.1.1 一 个 简单 的 例子 


对 于 两 个 变量 XX 和， 具有 两 个 主 成 分 Z (i= 1,2) : 











Li = wii Xi t+ wis NY 
其 中 ， 权 重 ww 和 wi, 被 称 为 成 分 载荷 ， 用 于 将 原始 变量 转换 为 主 成 分 。 第 一 主 成 分 Z1 最 
好 地 解释 了 总 变异 性 的 线性 组 合 。 第 二 主 成 分 Z, 解释 了 剩余 的 变异 性 ， 它 也 是 最 差 拟 合 的 
线性 组 合 。 

















还 有 一 种 常用 的 主 成 分 计算 方法 。 该 方法 使 用 了 预测 变量 与 均值 之 间 的 偏离 
情况 ， 而 非 预 测 变 量 本 身 。 











在 R 语 言 中 ， 可 以 使 用 函数 princomp 计算 主 成 分 。 下 面 的 代码 对 雪 佛 龙 公司 (CVX) 和 
埃 克 森 美 胖 公 司 (XOM) 的 股票 收益 做 了 主 成 分 分 析 。 
oil_px <- sp500_px[, c('CVX', 'XOM')] 


pca <- princomp(oil_px) 
pcas$ loadings 


Loadings: 

Comp.1 Comp.2 
CVX -0.747 0.665 
XOM -0.665 -0.747 


对 于 CVX 和 XOM 的 股票 收益 数据 ， 第 一 主 成 分 的 权重 分 别 是 -0.747 和 -0.665， 第 二 主 
成 分 的 权重 分 别 是 0.665 和 -0.747。 这 个 结果 应 该 如 何 解释 ? 第 一 主 成 分 基本 上 是 CVX 
和 XOM 的 平均 值 ， 反 映 了 这 两 家 能 源 公司 之 间 的 相关 性 。 第 二 主 成 分 则 测定 了 两 支 股 票 
的 价格 何 时 出 现 偏 离 。 


绘制 数据 与 主 成 分 ， 也 有 一 定 的 指导 意义 。 


loadings <- pca$loadings 
ggplot(data=oil_px, aes(x=CVX, y=XOM)) + 
geom point(alpha=.3) + 
stat_ellipse(type='norm', level=.99) + 
geom abline(intercept = 0, slope = Loadings[2,1]/Loadings[1,1]) + 
geom abline(intercept = 0, slope = Loadings[2,2]/Loadings[1,2]) 


结果 如 图 7-1 所 示 。 
































7-1: CVX 和 XOM 股票 收益 的 主 成 分 


虚线 表示 了 两 个 主 成 分 。 第 一 主 成 分 沿 椭圆 的 长 轴 ， 第 二 主 成 分 沿 椭圆 的 短 轴 。 我 们 可 以 
看 到 ， 两 支 股票 收益 的 主要 变化 是 由 第 一 主 成 分 解释 的 。 这 是 合理 的 ， 因 为 能 源 股 的 价格 
倾向 于 整体 发 生变 化 。 


从 上 例 中 我 们 看 到 ， 第 一 主 成 分 的 权重 均 为 负 值 。 将 所 有 权重 的 正 负 值 反 
转 ， 并 不 会 改变 主 成 分 。 例 如 ， 如 果 对 第 一 主 成 分 使 用 0.747 和 0.665 的 权 
重 ， 等 价 于 使 用 -0.747 和 -0.665 的 权重 。 这 从 图 中 也 可 以 看 出 ， 经 过 原点 
和 (1, 1) 的 无 限 长 直线 ， 等 同 于 经 过 原点 和 (-1 -1D 的 无 限 长 直线 。 
































7.1.2 ”计算 主 成 分 

将 主 成 分 分 析 从 两 个 变量 扩展 到 多 个 变量 是 十 分 简单 的 。 对 于 第 一 主 成 分 ， 只 需 在 线性 组 
合 中 额外 添加 预测 变量 ， 并 指定 可 优化 所 有 预测 变量 共 变 集 (在 统计 学 中 这 被 称 为 协 方 
差 ， 参见 5.2.1 节 ) 的 权重 。 主 成 分 的 计算 使 用 了 经 典 的 统计 学 方法 ， 依 赖 于 数据 的 相关 
和 矩阵 或 协 方差 矩阵 ， 并 且 计 算 执 行 得 很 快 ， 不 需要 做 迭代 。 如 上 节 所 述 ， 主 成 分 分 析 只 适 
用 于 数值 型 变量 ， 并 不 适用 于 分 类 变量 。 完 整 的 计算 过 程 如 下 。 

(1) 在 创建 第 一 主 成 分 时 ， 主 成 分 分 析 给 出 的 预测 变量 的 线性 组 合 ， 使 得 可 解释 的 总 方差 的 

比例 最 大 化 。 




















(2) 进而 ， 主 成 分 分 析 将 该 线性 组 合作 为 第 一 个 “新 的 ”预测 因子 Zi。 

(3) 主 成 分 分 析 使 用 具有 不 同 权 重 的 同一 变量 ， 重 复 上 述 过 程 ， 创 建 第 二 个 “新 的 ”预测 因 
子 乙 。 主 成 分 分 析 对 两 个 预测 因子 加 权 ， 使 得 Z 和 ZZ, 不 相关 。 

(4) 重复 上 述 过 程 ， 直 到 所 得 到 的 新 变量 (或 成 分 ) 2 的 数量 与 原始 变量 XX 相同。 

(5) 选择 保留 为 解释 大 部 分 方差 所 需 的 成 分 。 

(6) 目前 得 到 的 结果 是 对 应 于 每 个 成 分 的 一 组 权重 。 最 后 一 步 是 通过 对 原始 数据 应 用 权重 ， 
将 原始 数据 转换 为 新 的 主 成 分 分 值 。 这 些 新 的 分 值 可 以 作为 规模 缩减 的 一 组 预测 变量 。 


7.1.3 解释 主 成 分 


主 成 分 的 性 质 往往 能 揭示 数据 的 结构 信息 。 一 些 标准 的 可 视 化 展示 有 助 于 我 们 深入 了 解 主 
成 分 的 相关 信息 。 一 种 可 视 化 方法 就 是 陡坡 图 〈Screeplot) 。 陡 坡 图 展示 了 各 个 主 成 分 的 相 
对 重要 性 。 其 命名 源 于 其 类 似 于 山体 的 陡坡 。 使 用 下 面 的 代码 可 以 绘制 在 标准 普尔 500 指 
数 中 排名 靠 前 的 几 家 公司 的 陡坡 图 。 


syms <- c( 'AAPL', 'MSFT', 'CSCO', 'INTC', 'CVX', 'XOM', 
'SLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COST') 
top_sp <- sp500_px[row.names(sp500_px)>="'2005-01-01', syms] 
sp_pca <- princomp(top_sp) 
screeplot(sp_pca) 








































































































结果 如 图 7-2 所 示 。 从 图 中 可 见 ， 第 一 主 成 分 的 方差 相当 大 (通常 情况 下 都 会 如 此 )， 但 是 
其 他 几 个 靠 前 的 主 成 分 也 是 显著 的 。 
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图 7-2: 标准 普尔 500 指数 中 排名 靠 前 的 几 家 公司 股票 的 主 成 分 分 析 陡 坡 图 





196 | 第 7 章 





如 果 绘 制 出 前 几 个 主 成 分 的 权重 ， 那 么 绘图 将 更 有 局 示 作 用 。 一 种 绘图 方法 是 在 ggplot 中 
结合 使 用 tidyr 包 中 的 gather 函数 。 
library(tidyr) 
Loadings <- sp_pca$loadings[,1:5] 
loadings$Symbol <- row.names(loadings) 
Loadings <- gather(loadings, "Component", "Weight", -Symbol) 
ggplot(loadings, aes(x=Symbol, y=Weight)) + 
geom bar(stat='identity') + 
facet grid(Component ~ ., scales='free y') 


前 5 个 主 成 分 的 载荷 如 图 7-3 所 示 。 其 中 ， 第 一 主 成 分 的 载荷 具有 一 致 的 正 负 。 这 对 于 所 
有 列 共享 同一 因子 (在 本 例 中 是 股市 的 整体 趋势 ) 的 数据 来 说 是 一 种 典型 情况 。 第 二 主 成 
分 捕获 了 能 源 类 股票 价格 与 其 他 类 股票 相 比 的 变化 情况 。 第 三 主 成 分 主要 对 比 了 侠 果 公司 
(AAPL) 和 好 市 多 (CostCo) 股票 的 变化 。 第 四 主 成 分 对 比 了 斯 伦 贝 谢 公司 (SLB) 与 其 
他 能 源 类 股票 的 走势 。 第 五 主 成 分 由 金融 类 公司 主导 。 


ll ss bd 
0 





























Component Loading 











图 7-3: 股价 收益 的 前 5 个 主 成 分 的 载荷 
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应 选取 多 少 个 成 分 ? 

如 果 我 们 的 目标 是 降低 数据 的 维度 ， 那 么 必须 确定 要 选取 的 主 成 分 数 。 最 常 
用 的 方法 是 使 用 即席 (ad hoc) 规则 ， 即 选择 解释 了 “大 部 分 ”方差 的 成 分 。 
我 们 可 以 通过 陡坡 图 以 可 视 化 方式 进行 。 例 如 ， 在 图 7-2 中 ， 很 自然 地 要 将 
分 析 限 定 于 前 五 个 成 分 。 另 一 种 方法 是 选择 累积 方差 超过 一 定 阔 值 〈 例 如 
80%) 的 前 几 个 成 分 。 此 外 ， 我 们 还 可 以 通过 检查 载荷 的 情况 ， 确 定 各 个 成 
分 是 否 能 给 出 直观 的 解释 。 对 于 选择 重要 成 分 的 数量 ， 一 种 正式 的 做 法 是 使 
用 交叉 验证 (更 多 信息 ， 参 见 4.2.3 市 )。 














本 节 要 点 
。 主 成 分 是 预测 变量 的 线性 组 合 ， 但 仅 限 于 数值 型 预测 变量 。 
。 主 成 分 计算 的 原则 是 使 成 分 之 间 的 相关 性 最 小 化 ， 进 而 减少 宛 余 。 
。 通常 ， 有 限 数量 的 成 分 就 可 以 解释 结果 变量 的 大 部 分 方差 。 
。 这 样 就 可 以 使 用 一 组 有 限 的 主 成 分 代替 (更 多 的 ) 原始 预测 变量 ， 从 而 降低 维度 。 











7.1.4 拓展 阅读 


Rasmus Bro、Karin Kjeldahl、A. K. Smilde 和 Henk A. L. Kiers 于 2008 年 发 表 在 4nalytical 
and Bioanalytical Chemistry 期 刊 上 的 论文 “Cross-Validation of Component Models: A Critical 
Look at Current Methods” 详 细 地 介绍 了 如 何在 主 成 分 分 析 中 使 用 交叉 验证 方法 。 


7.2 K-Means 聚 类 


聚 类 是 一 种 数据 分 组 技术 ， 使 得 组 内 记录 彼此 相似 。 聚 类 的 一 个 目标 是 识别 数据 中 重要 且 
有 意义 的 组 。 这 些 组 可 以 直接 使 用 ， 进 行 更 深入 的 分 析 ， 也 可 以 作为 特征 或 结果 传递 给 预 
测 回归 或 分 类 模型 。K-Means 是 首 个 被 提出 来 的 聚 类 方法 ， 目 前 依然 广 为 使 用 ， 原 因 在 于 
其 算法 相对 简单 ， 并 可 以 扩展 到 大 规模 数据 集 上 。 




















= 














主要 术语 
类 (cluster) 
一 组 类 似 的 记录 。 
类 均值 
表示 类 内 记录 变量 均值 的 向 量 。 
人 
类 的 个 数 。 














我 们 称 一 个 类 内 每 个 记录 到 该 类 均值 之 间距 离 的 平方 和 为 类 内 平方 和 ， 或 简称 为 “类 内 
SS”。K-Means 通过 最 小 化 类 内 平方 和 ， 将 数据 划分 为 KK 个 类 。K-Means 并 不 能 保证 各 个 
类 的 规模 相同 ， 但 是 能 找 出 相互 分 离 情 况 最 好 的 类 。 

归 一 化 

应 对 连续 变量 做 归 一 化 (标准 化 )， 一般 做 法 是 减 去 均值 再 除 以 标准 偏差 。 
否则 大 尺度 的 变量 将 会 主导 聚 类 过 程 (参见 6.1.4 节 )。 








7.2.1 一 个 简单 的 例子 

给 定 一 个 具有 nn 条 记录 的 数据 集 ， 其 中 只 有 x 和 yy 两 个 变量 。 假 设 我 们 想 将 数据 划分 为 
K = 4 个 类 ， 这 意味 着 每 条 记录 (%,y) 将 会 指定 给 一 个 类 k。 假定 给 类 上 指定 了 ni 条 记录 ， 
类 的 中 心 ( 五 , 矿 ) 就 是 类 内 各 记录 的 均值 ， 即 


1 

X=— > Xx 
nn ie 类 kk 

本 | 

二 一 > yi 
ny ie 类 k 


类 均值 
通常 情况 下 ， 聚 类 的 记录 具有 多 个 变量 。 类 均值 (cluster mean) 并 非 指 单个 
数字 ， 而 是 指 表示 变量 均值 的 向 量 。 











类 内 平方 和 由 下 式 给 出 。 


SS = 》 (% -未 ) + (yw 一 及 ) 
ie 类 kk 


i 





K-Means 将 给 出 一 种 记录 的 分 配方 法 ， 使 得 所 有 四 个 类 的 类 内 平方 和 之 和 SS, + SS, + SS;+ 
SS, 最 小 化 。 





y SS 
使 用 天 Means 聚 类 ， 我 们 可 以 深入 地 了 解 股票 价格 走势 的 聚 类 情况 。 注 意 ， 股 票 收益 实 
际 上 是 以 归 一 化 的 方式 给 出 的 ， 因 此 不 需要 再 对 数据 做 归 一 化 。 在 及 语言 中 ， 可 以 使 用 
kmeans 函数 执行 K-Means 聚 类 。 例 如 ， 下 面 的 代码 使 用 了 XOM 和 CVX 股票 收益 这 两 个 
变量 ， 划 分 出 4 个 类 。 
df <- sp500_px[row.names(sp500_px)>='2011-01-01' ，c('XOM' ，'CVX')] 


km <- kmeans(df, centers=4) 


在 代码 的 输出 结果 中 ， 每 个 记录 的 聚 类 分 配 情况 在 cluster 项 中 。 
































> df$cluster <- factor(km$cluster) 
> head(df) 

XOM CVX cluster 
2011-01-03 0.73680496 0.2406809 
2011-01-04 0.16866845 -0.5845157 
2011-01-05 0.02663055 0.4469854 
2011-01-06 0.24855834 -0.9197513 
2011-01-07 0.33732892 0.1805111 
2011-01-10 0.00000000 -0.4641675 


从 结果 中 可 以 看 到 ， 前 6 条 记录 被 指定 给 了 类 1 或 类 2。 此 外 ， 代 码 还 返回 了 类 均值 。 


> centers <- data.frame(cluster=factor(1:4), km$centers) 
> centers 
cluster XOM CVX 
1 1 -0.3284864 -0.5669135 
2 2 0.2410159 0.3342130 
3 3 -1.1439800 -1.7502975 
4 4 0.9568628 1.3708892 


POPDOPAD 











类 1 和 类 3 代表 股市 “走低 ”， 而 类 2 和 类 4 表示 股市 “上 涨 *。 在 本 例 中 ， 只 有 两 个 变 
量 ， 所 以 可 以 直观 地 查看 各 个 类 及 其 含义 。 
ggplot(data=df, aes(x=XOM, y=CVX, color=cluster, shape=cluster)) + 


geom point(alpha=.3) + 
geom_point(data=centers, aes(x=XOM, y=CVX), size=3, stroke=2) 


结果 如 图 7-4 所 示 ， 图 中 显示 了 类 的 分 配 情况 和 类 均值 。 
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7.2.2 K-Means 算 法 


K-Means 算法 同样 可 以 应 用 于 具有 p 个 变量 (Xi, …, %,) 的 数据 集 。 要 让 K-Means 给 出 精确 
解 ， 计 算 难 度 很 大 ， 但 启发 式 算法 可 以 高 效 地 计算 出 局 部 最 优 解 。 


在 算法 开始 时 ， 用 户 需要 指定 天 值 和 一 组 初始 的 类 均值 ， 然 后 重复 执行 以 下 步骤 。 


(1) 根据 距离 的 平方 值 ， 将 每 条 记录 分 配给 最 近 的 类 均值 所 在 的 类 。 
(2) 根据 记录 的 分 配 情况 ， 重 新 计算 新 的 类 均值 


一 且 记 录 到 类 的 分 配 情况 不 再 改变 ， 该 算法 就 收敛 。 


在 开始 首次 迭代 前 ， 需 要 指定 一 组 初始 的 类 均值 。 一 般 做 法 是 将 每 个 记录 随机 分 配给 天 个 
类 中 的 一 个 ， 然 后 计算 类 均值 。 


由 于 该 算法 并 不 保证 能 给 出 最 优 解 ， 所 以 推荐 做 法 是 在 初始 化 时 使 用 不 同 的 随机 样本 多 次 
运行 算法 。 当 使 用 了 多 组 迭代 时 ，K-Means 的 结果 由 类 内 平方 和 最 低 的 一 组 迭代 给 出 。 


可 以 通过 设置 R 函数 kmeans 的 nstart 参数 ， 指 定 随 机 启动 初始 化 的 尝试 次 数 。 例 如 ， 下 
面 的 代码 使 用 10 个 不 同 的 初始 类 均值 运行 K-Means， 以 找 出 5 个 类 。 
syms <- c( 'AAPL', 'MSFT', 'CSCO', 'INTC', 'CVX', 'XOM', 'SLB', 'COP', 
'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COST') 
df <- sp500_px[row.names(sp500_px)>="'2011-01-01', syms] 
km <- kmeans(df, centers=5, nstart=10) 


kmeans 函数 会 自动 返回 10 个 不 同 起 始点 中 的 最 优 解 。 我 们 可 以 通过 设置 参数 iter .maxto， 
肯定 每 次 随机 启动 所 人 允许 的 最 大 帮 代 次 数 。 


7.2.3 解释 类 


聚 类 分 析 的 一 个 重要 部 分 是 解释 类 。 在 函数 kmeans 的 输出 中 ， 最 重要 的 两 个 是 类 规模 和 类 
均值 。 对 于 上 市 的 例子 ， 生 成 的 类 规模 由 下 面 的 RR 命令 给 出 。 


km$size 
[1] 186 106 285 288 266 


类 的 规模 相对 平衡 。 不 平衡 的 类 可 能 是 由 过 于 离 群 的 异常 值 所 导致 的 ， 或 是 由 于 与 其 他 数 
据 过 异 的 一 组 记录 所 导致 的 ， 这 两 个 问题 都 有 可 能 导致 需要 进一步 探索 数据 。 


我 们 可 以 在 ggplot 中 一 并 使 用 gather 函数 绘制 类 中 心 。 


centers <- as.data.frame(t(centers)) 

names(centers) <- paste("Cluster", 1:5) 

centers$Symbol <- row.names(centers) 

centers <- gather(centers, "Cluster", "Mean", -Symbol) 

centers$Color = centers$Mean > 0 

ggplot(centers, aes(x=Symbol, y=Mean, fill=Color)) + 
geom_bar(stat='identity', position = "identity", width=.75) + 
facet_grid(CLuster ~ ., scales='free_y') 



















































































结果 如 图 7-5 所 示 ， 该 图 很 好 地 揭示 了 各 个 类 的 本 质 。 例 如 ， 类 1 和 类 2 分 别 对 应 于 股市 
下 跌 和 上 涨 的 交易 日 。 类 3 和 类 5 分 别 标识 了 消费 类 股票 上 涨 的 交易 日 和 能 源 类 股票 下 跌 
的 交易 日 。 类 4 表示 了 能 源 类 股票 上 涨 且 消费 类 股票 下 跌 的 交易 日 。 
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图 7-5: 各 个 类 中 的 变量 均值 ( 即 “类 均值 ”) 


聚 类 分 析 与 主 成 分 分 析 

对 类 均值 绘图 类 似 于 查看 主 成 分 分 析 的 载荷 〈 参 见 7.1.3 市 )。 二 者 的 一 个 主 
要 区 别 在 于 ， 类 均值 的 符号 是 有 意义 的 。 主 成 分 分 析 可 以 识别 变异 性 的 主要 
方向 ， 而 聚 类 分 析 可 以 发 现 彼此 相 邻 的 多 组 记录 。 
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7.2.4 选择 类 的 个 数 





要 使 用 K-Means 算法 ， 必 须 指定 类 的 个 数 K。 在 一 些 情况 下 ， 类 数 是 由 应 用 决定 的 。 例 
如 ,一 家 销售 人 员 管 理 公司 希望 将 客户 群 聚 类 为 不 同 的 “人 物 角 色 ”， 这 样 可 以 有 针对 性 
地 引导 电话 销售 。 在 这 种 情况 下 ， 管 理 上 的 考虑 决定 了 所 需 的 客户 类 数 。 如 果 设 置 两 个 























类 ， 可 能 无 法 反映 出 客户 之 间 的 差异 ， 而 如 果 设 置 8 个 类 ， 可 能 会 过 多 而 难以 管理 。 














如 有 果 设 有 实际 的 或 管理 上 的 考虑 来 决定 类 数 ， 可 以 使 用 统计 方法 。 并 不 存在 一 种 可 以 给 


“最 佳 ” 类 数 的 标准 方法 。 


一 种 常用 的 方法 是 “ 肘 部 法 则 ”(elbow method)， 它 能 确定 一 组 类 何 时 解释 了 数据 中 的 
“大 部 分 ”方差 。 在 这 样 一 组 类 之 上 添加 新 的 类 ， 对 于 解释 方差 的 贡献 较 小 。 











解释 的 累积 方差 在 陡峭 上 升 之 后 变 为 平整 的 转折 点 ， 方 法 也 因此 








得 名 。 


“ 肘 部 ”是 指 


图 7-6 显示 了 类 数 从 2 增加 到 15 时 ， 针 对 默认 数据 解释 的 方差 的 累积 百分比 。 那 么 该 例 的 


“ 肘 部 ”在 哪里 ? 答案 是 没有 明显 的 肘 部 ， 因 为 所 解释 的 方差 增 量 呈 逐 新 下 降 。 如 有 果 数 据 
中 缺少 良好 定义 的 类 ， 那 么 该 问题 是 普遍 存在 的 。 这 或 许 是 肘 部 方法 的 一 个 缺点 ， 尽 管 它 








的 确 能 揭示 数据 的 本 质 。 
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7-6: 对 股票 数据 应 用 肘 部 法 则 


R 语言 的 kmeans 函数 并 没有 提供 单独 的 命令 去 应 用 肘 部 法 则 ， 
kmeans 函数 的 输出 ， 如 下 所 示 。 

















但 是 肘 部 法 则 很 容易 应 用 于 








pct_var <- data.frame(pct var = 0， 
num_clusters=2:14) 
totalss <- kmeans(df, centers=14, nstart=50, iter.max = 100)Stotss 
for(i in 2:14){ 
pct_var[i-1, 'pct var'] <- kmeans(df, centers=i, nstart=50, iter.max = 100) 
$betweenss/totalss 


} 


要 评估 应 保留 的 类 数 ， 最 重要 的 检验 也 许 是 : 类 是 否 可 复 用 于 新 的 数据 ? 类 是 否 可 解释 ? 
类 反映 了 数据 的 一 般 特性 ， 还 是 仅仅 反映 了 特定 的 实例 ? 这 在 某 种 程度 上 可 以 使 用 交叉 验 
证 进行 评估 ， 参 见 4.2.3 节 。 

一 般 来 说 ， 并 不 存在 能 可 靠 地 指导 所 生成 的 类 数 的 单一 规则 。 


对 于 确定 类 数 ， 存 在 多 种 更 正式 的 方法 ， 这 些 方法 均 基 于 统计 学 或 信息 理 
论 。 例 如 ， 罗 伯 特 . 蒂 希 雷 尼 、 冈 瑟 . 瓦尔 特 (Guenther Walther) 和 特 雷 弗 ， 
哈 斯 蒂 基 于 统计 理论 提出 了 一 种 “间隙 ”(gap) 统计 量 ， 用 来 识别 肘 部 。 但 
是 对 于 大 多 数 的 应 用 而 言 ， 可 能 没有 必要 其 至 不 适合 应 用 这 些 理论 方法 。 









































本 节 要 点 
。 所 需 的 类 数 开 由 用 户 决定 。 
。 K-Means 算法 通过 达 代 地 将 记录 分 配给 最 近 的 类 均值 ， 直 到 类 的 分 配 情况 不 再 发 生 
改变 ， 实 现 了 类 的 生成 。 
。 通常 ， 出 于 实际 的 考虑 决定 了 天 的 选择 。 在 统计 学 上 不 存在 最 优 的 类 数 。 











7.3 ”层次 聚 类 

除 K-Means 以 外 ， 层 次 聚 类 (hierarchical clustering) 也 是 一 种 聚 类 方法 ， 它 可 以 生成 非常 
不 同 的 类 。 层 次 聚 类 比 K-Means 更 灵活 ， 并 且 更 易于 应 用 在 非 数值 型 变量 上 ， 对 于 发 现 离 
群 的 或 异常 的 组 和 记录 也 更 为 敏感 。 层 次 聚 类 也 适 于 做 直观 的 图 形 展示 ， 因 而 解释 类 也 更 
为 容易 。 











主要 术语 
树 状 图 
一 种 可 视 化 表示 ， 显 示 了 记录 及 其 所 属 类 的 层次 结构 。 
距离 
测量 两 个 记录 之 间 的 接近 程度 。 
相 异 性 








测量 两 个 类 之 间 的 接近 程度 。 











层次 聚 类 的 灵活 性 是 有 一 定 代价 的 ， 它 不 能 很 好 地 扩展 到 具有 数 百 万 条 记录 的 大 规模 数据 
集 上 。 即 便 是 只 有 数 万 条 记录 的 中 等 规模 数据 集 ， 层 次 聚 类 可 能 也 需要 大 量 的 计算 资产。 
事实 上 ， 层 次 聚 类 的 大 部 分 应 用 都 集中 在 一 些 规模 相对 较 小 的 数据 集 上 。 


7.3.1 一 个 简单 的 例子 

我 们 将 层次 聚 类 应 用 于 一 个 具有 nn 条 记录 和 个 变量 的 数据 集 。 其 中 ， 我 们 使 用 了 两 个 基 
本 度量 。 

。 距离 度量 4; ;测量 两 个 记录 i 和. 之 间距 离 。 

。 相 异 性 度量 D, ;s， 基 于 每 个 类 内 成 员 间 的 距离 4;;， 测 量 两 个 类 4 和 B 间 的 差异 。 

对 于 使 用 数值 型 数据 的 应 用 ， 关 键 在 于 如 何 选择 相 异 性 度量 。 层 次 聚 类 首先 使 每 个 记录 独 
自 构成 一 个 类 ， 然 后 迭代 地 合并 相 异 性 最 低 的 类 。 


在 R 语 言 中 ， 可 以 使 用 hclust 国 数 执行 层次 聚 类 。hctust 函数 和 kmeans 函数 的 一 大 区 
别 是 ， 它 并 非 运 行 在 数据 本 身 之 上 ， 而 是 运行 于 成 对 记录 的 距离 d; ; 之 上 。 我 们 可 以 使 用 
dist 国 数 分 别 计 算 所 有 数据 对 间 的 距离 。 例 如 ， 下 面 的 代码 对 一 组 公司 的 股票 收益 数据 应 
用 层次 聚 类 。 
syms1 <- c('GOOGL', 'AMZN', 'AAPL', 'MSFT', 'CSCO', 'INTC', 'CVX', 
'XOM', 'SLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP', 
'WMT', 'TGT', 'HD', 'COST') 
# 下 面 执行 转 置 操 作 。 因 为 要 按照 公司 聚 类 ， 所 以 需要 股票 数据 按 行 排列 
df <- t(sp500_px[row.names(sp500_px)>='2011-01-01', syms1]) 
d <- dist(df) 
hcl <- hclust(d) 
聚 类 算法 将 按 记录 ( 即 R 语 言 的 dataframe 对 象 的 行 ) 执行 聚 类 。 因 为 我 们 希望 按 公司 进行 
聚 类 ， 所 以 要 对 dataframe 对 象 做 一 次 转 置 操作 ， 使 得 股票 数据 按 行 排列 ， 日 期 按 列 排列 。 


7.3.2 ” 树 状 图 

层次 聚 类 可 以 天 然 地 表示 为 树 ， 我 们 称 这 样 的 绘图 为 树 状 图 。 树 状 图 “dendrogram” 一 词 

源 于 希腊 语 “dendro”( 树 ) 和 “gramma”( 图 )。 在 R 语言 中 ,使 用 plot 命令 可 以 很 容易 

地 生成 一 个 树 状 图 。 
plot(hcl) 


结果 如 图 7-7 所 示 。 其 中 树 的 叶子 对 应 于 每 条 记录 ， 分支 的 长 度 表 示 了 相应 类 间 的 相 异 性 
程度 。 从 图 中 可 见 ， 谷 歌 (GOOGL) 和 亚马逊 (AMZN) 股票 的 收益 与 其 他 股票 的 收益 
过 异 。 其 他 股票 分 成 了 自然 组 : 能 源 类 股票 、 金 融 类 股票 和 消费 类 股票 均 划 分 成 它们 各 自 
的 子 树 。 
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图 7-7: 股票 数据 的 树 状 图 
不 同 于 K-Means， 层 次 聚 类 不 需要 预先 指定 类 数 。 如 果 要 使 用 层级 聚 类 划分 指定 数量 的 类 ， 
可 以 使 用 cutree 函数 。 


cutree(hcl, k=4) 
GOOGL AMZN AAPL MSFT CSCO INTC CVX XOM SLB COP JPM WFC 








1 2 3 3 3 3 4 4 4 4 3 3 
USB  AXP WMT TCT HD COST 
3 3 3 3 3 3 





在 上 面 的 命令 中 ， 我 们 设置 类 数 为 4。 从 结果 中 可 以 看 到 ， 人 谷歌 和 亚马逊 的 股票 分 属于 各 
自 的 类 ， 石 油 类 股票 XOM、CVS、SLB 和 COP 同属 于 另 一 个 类 ， 而 其 余 的 股票 则 被 划分 
在 第 4 个 类 中 。 


7.3.3 ”凝聚 算法 

层次 聚 类 的 主要 算法 是 凝聚 (agglomerative) 算法 。 该 算法 迭代 地 合并 相似 的 类 。 它 从 每 
条 记录 独自 构成 一 个 类 开始 ， 逐 步 地 构建 更 大 的 类 。 该 算法 的 第 一 步 是 计算 所 有 记录 对 之 
间 的 距离 。 
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对 于 每 对 记录 Co xX2…, 2) 和 00 2 功 ， 凝 聚 算法 使 用 距离 度量 〈 参 见 6.1.2 节 ) 测定 
两 个 记录 间 的 距离 d, ,。 例 如 ， 我 们 可 以 使 用 欧 氏 距离 : 





d(x,y) = p+ +t x, —y,) 
下 面 看 一 下 如 何 计算 类 之 间 的 距离 。 给 定 两 个 类 4 和 B， 每 个 类 中 包含 了 一 组 不 同 的 记 
录 , 4 = (ao aa) 和 下 = (bi, Pb,,…, b,)。 类 之 间 的 相 异 性 D,s 可 以 通过 类 4 和 类 B 成 员 
间 的 距离 来 测量 。 
一 种 相 异 性 测量 方法 是 使 用 完全 连接 (complete linkage) 法 。 该 方法 使 用 了 类 4 和 类 8 之 
间 所 有 记录 对 间 的 最 大 距离 。 





D(A,B)=maxd(a,,b,), a, € A, b, eB 
完全 连接 法 将 相 异 性 定义 为 所 有 记录 对 间 的 最 大 差异 。 
凝聚 算法 的 主要 步骤 如 下 。 


(1) 创建 一 组 初始 的 类 C， 数 据 中 的 每 条 记录 各 自 构 成 一 个 类 。 
(2) 对 于 所 有 的 Ce Cs C， 计 算 成 对 类 的 相 异 性 P(Ce Ci)。 

(3) 合并 由 D(Cx Co) 测定 的 相 异 性 最 小 的 两 个 类 Cx 和 Ci。 

(4) 如 果 剩 余 的 类 数 不 止 一 个 ， 那 么 返回 步骤 2。 否 则 ， 终 止 算法 。 





es 





7.3.4 测量 相 异 
测量 相 异 性 有 四 种 常用 的 方法 ， 即 完全 连接 、 单 一 连接 、 平 均 连接 和 最 小 方差 。 大 部 分 层 
次 聚 类 软件 ， 包 括 前 文 介绍 的 hclust 函数 ， 都 支持 这 四 种 测量 方法 (以 及 一 些 其 他 测量 
法 )。 上 一 节 已 经 介绍 了 完全 连接 方法 ， 该 方法 趋向 于 生成 具有 类 似 成 员 的 类 。 单 一 连接 
方法 使 用 两 个 集群 的 记录 对 间距 离 的 最 小 值 。 






































D(A4,B)=mind(a,b,) 


其 中 和 j 表示 类 内 的 记录 对 。 单 一 连接 法 是 一 种 “贪心 ”方法 ， 它 可 以 生成 包含 完全 不 
同 元 素 的 类 。 平 均 连 接 法 使 用 所 有 距离 对 的 均值 ， 它 是 单一 连接 和 完全 连接 的 一 种 折 中 。 
最 小 方差 法 (也 被 称 为 “Ward 方法 ”) 类 似 于 K-Means 方法 ， 因 为 它 最 小 化 类 内 平方 和 
(参见 7.2 节 )。 


图 7-8 分 别 展示 了 采用 四 种 方法 做 层次 聚 类 的 输出 情况 ， 使 用 的 数据 是 XOM 和 CVX 公司 
的 股票 收益 数据 。 对 于 每 种 测量 方法 ， 我 们 生成 四 个 类 。 
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图 7-8: 对 于 股票 收益 数据 ， 比 较 不 同 的 相 异 性 测量 


结果 存在 显著 的 差异 。 使 用 单一 连接 方法 时 ， 几 乎 所 有 的 点 都 分 配给 同一 个 类 。 除 了 最 小 
方差 法 之 外 ， 其 他 所 有 的 测量 方法 都 至 少 生成 一 个 有 少量 离 群 值 的 类 。 如 果 与 图 7-4 对 比 ， 
我 们 可 以 看 到 ， 最 小 方差 法 与 K-Means 聚 类 最 相似 。 



































本 节 要 点 
。 层次 有 聚 类 算法 开始 时 ， 每 条 记录 单独 构成 一 个 类 。 
。 在 凝聚 算法 中 ， 类 逐步 与 相 邻 的 类 合并 ， 直 到 所 有 记录 属于 单一 类 。 
。 凝聚 算法 的 类 历史 可 以 被 保留 并 绘制 出 来 。 用 户 (无 须 预 先 指 定 类 数 ) 可 以 在 算法 
执行 的 各 个 阶段 ， 可 视 化 地 查看 类 数 和 类 的 结构 。 
。 有 多 种 方法 可 以 计算 类 之 间 的 距离 。 这 些 方 法 都 依赖 于 所 有 记录 间距 离 。 











7.4 基于 模型 的 聚 类 

层次 聚 类 、K-Means 等 都 是 启发 式 聚 类 方法 。 这 类 方法 主要 依赖 类 内 成 员 间距 离 的 远近 而 
发 现 类 。 它 们 直接 测量 数据 ， 并 不 使 用 概率 模型 。 在 过 去 的 20 年 间 ， 研 究 人 员 为 了 开发 
出 基于 模型 的 聚 类 方法 做 出 了 大 量 努 力 。 例 如 ， 华 盛 顿 大 学 的 Adrian Raftery 等 研究 者 对 























基于 模型 的 聚 类 方法 做 出 了 重大 的 理论 上 的 和 软件 上 的 贡献 。 这 种 方法 以 统计 理论 为 基 
础 ， 为 确定 类 的 性 质 和 数量 提供 了 更 严格 的 方法 。 这 些 方法 可 用 于 这 种 情况 : 一 组 记录 彼 
此 相似 但 并 非 相 互 接近 (例如 ， 收 益 差 异 很 大 的 科技 类 股票 )， 还 有 一 组 记录 既是 相似 的 
也 彼此 接近 (例如 ， 收 益 差 异 较 小 的 公用 事业 类 股票 )。 


7.4.1 多 元 正 态 分 布 


eR 聚 类 方法 依赖 于 多 元 正 态 分 布 。 个 变量 部 ， 
, 马 正 态 分 布 的 一 种 推广 。 该 分 布 使 用 一 组 均值 x = 上 4…, 1 和 协 方差 矩阵 站 定 
协 广 是 恋 间 相关 性 的 度量 (关于 协 方差 的 详细 信息 ， 参 见 5.2.1 节 )。 协 方差 


和 矩阵 也 由 p 个 方差 of, 02,…, ap 以 及 所 有 变量 对 的 协 方差 cv 六) 构成。 矩阵 的 行 和 
列 均 用 变量 表示 ， 形 式 为 : 

















oO O12 Op 
2 
= O21 0, 2.p 
2 2 
Op 0, Op 


鉴于 协 方差 矩阵 是 对 称 的 ， 即 cv = 5;， 因 此 算 阵 中 只 有 PP 一 Dp 个 协 方差 项 ， 协 方 
差 矩 阵 共 有 p(P 一 D) 个 参数 。 多 元 正 态 分 布 表 示 为 : 


(X,X, A )N, (1,2) 
该 符号 化 表示 表明 所 有 的 变量 均 符 合 正 态 分 布 ， 整 体 分 布 使 用 变量 均值 的 向 量 和 协 方差 矩 
阵 描述 。 


图 7-9 显示 了 有 具 有 两 个 变量 筷 和 了 的 多 元 正 态 分 布 的 概率 轮廓 线 〈( 例 如， 图 中 的 0.5 概率 
轮廓 线 包 含 了 50% 的 分 布 ) 。 


该 分 布 的 均值 是 .= 0.5 和 心 = -0.5， 协 方差 矩阵 为 : 




















DR 


由 于 协 方差 cu 为 正 ， 所 以 式 和 了 是 正 相关 的 。 











-一 0.5 
---" 0.75 
-一 0.95 
-~ 0.99 

















图 7-9: 二 维 正 态 分 布 的 概率 轮廓 线 


7.4.2 混合 正 态 分 布 
基于 模型 的 聚 类 的 关键 思想 是 ， 假 定 每 条 记录 的 分 布 符合 kK 个 多 元 正 态 分 布 之 一 ， 甚 中 天 
是 类 的 个 数 。 每 个 分 布 具有 不 同 的 均值 人 4 和 协 方差 矩阵 过 。 例 如 ， 对 于 两 个 变量 式 和 也 
每 一 行 (KX,¥) 可 建 模 为 天 个 多 元 分 布 Ni >)， N,(1, 2,), 5 NkULe 27) 之 一 的 一 个 抽样 。 


R 语言 的 mclust 软件 包 提供 了 丰富 的 基于 模型 聚 类 的 功能 。 该 软件 包 最 初 是 由 Chris 
Fraley 和 Adrian Raftery 开发 的 。 我 们 可 以 对 前 面 使 用 K-Means 和 层次 聚 类 分 析 的 股票 收 
蔓 数 据 ， 使 用 该 软件 包 实 现 基于 模型 的 聚 类 。 

library(mclust) 

df <- sp500_px[row.names(sp500_px)>="'2011-01-01', c('XOM', 'CVX')] 

mcl <- Mclust(df) 

summary(mcl) 


























Mclust VEE (ellipsoidal, equal shape and orientation) model with 2 components: 


log. likelihood n df BIC ICL 
-2255.134 1131 9 -4573.546 -5076.856 
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Clustering table: 


1 2 


963 168 

















在 上 面 代码 的 执行 过 程 中 ， 我 们 可 能 会 广 意 到 ， 代 码 计算 所 用 的 时 间 明 显 长 于 其 


下 面 使 用 predict 国 数 给 出 聚 类 情况 ， 并 绘图 显示 。 


cluster <- factor(predict(mcL)ScLassificatiton) 
ggplot(data=df, aes(x=XOM, y=CVX, color=cluster, shape=cluster)) + 





geom_point(alpha=.8) 





图 7-10 所 示 。 图 中 有 两 个 类 ， 一 个 类 位 于 数据 分 

















二 


他 过 程 。 


的 中 部 ， 另 一 个 类 位 于 数据 分 布 

















结果 如 
的 外 围 。 这 完全 不 同 于 K-Means (图 7-4) 和 层次 聚 类 (图 7-8) 的 结果 ， 这 两 种 方法 可 以 
找到 更 紧凑 的 类 。 
2.51 
cluster 
关 0.01 1 
O 
2 
-2.5] 
-2 0 2 
XOM 











7-10: 使 用 mctust 得 到 股票 收益 数据 的 两 个 类 





我 们 可 以 使 用 summary 函数 提取 正 态 分 布 的 参数 。 


> summary(mcl, parameters=TRUE)S$mean 
[,1] [,2] 

XOM 0.05783847 -0.04374944 

CVX 0.07363239 -0.21175715 

> summary(mcl, parameters=TRUE)$variance 


1 


训 《 涝 


XOM CVX 
XOM 0.3002049 0.3060989 
CVX 0.3060989 0.5496727 
2 
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XOM CVX 
XOM 1.046318 1.066860 
CVX 1.066860 1.915799 


两 个 分 布 具 有 相似 的 均值 和 相关 性 ， 但 第 二 个 分 布 具 有 更 大 的 方差 和 协 方 差 。 

mclust 给 出 的 聚 类 可 能 令 人 惊奇 ， 但 实际 上 它们 展示 了 这 种 方法 的 统计 性 质 。 基 于 模型 聚 
类 的 目标 是 找到 一 组 最 佳 拟 合 的 多 元 正 态 分 布 。 股 票数 据 看 上 去 具有 正 态 分 布 的 形状 ( 参 
见 图 7-9 中 的 轮廓 线 )。 实 际 上 ， 相 比 于 正 态 分 布 ， 股 票 收 益 的 分 布 具有 更 长 的 尾部 。 为 了 
解决 这 个 问题 ，mclust 对 大 量 数据 拟 合 了 一 个 分 布 ， 随 后 又 拟 合 了 具有 更 大 方差 的 第 二 个 
分 布 。 


7.4.3 ”类 数 的 选取 

不 同 于 K-Means 和 层次 聚 类 ，mctust 会 自动 选取 类 数 (在 本 例 中 ， 是 两 个 类 )。 这 是 通过 
选取 使 贝 叶 斯 信息 准则 (BIC) 值 最 大 的 类 数 实现 的 。BIC (类 似 于 AIC) 是 在 一 组 候选 模 
型 中 找到 最 佳 模型 的 通用 工具 。 例 如 ，AIC (或 BIC) 常用 于 在 逐步 回归 (参见 4.2.4 节 ) 
中 选择 模型 。BIC 通过 对 模型 中 的 参数 数量 添加 一 个 惩罚 项 ， 选 择 最 优 拟 合 模型 。 在 基于 
模型 的 聚 类 中 ， 增 加 类 数 总 是 会 提高 模型 的 拟 合 度 ， 但 代价 是 在 模型 中 额外 地 引入 了 一 些 
参数 。 

我 们 可 以 使 用 hctust 软件 包 中 的 函数 ， 绘 制 不 同类 数 的 BIC 值 。 


plot(mcl, what='BIC' , ask=FALSE) 


结果 如 图 7-11 所 示 。 图 中 , x 轴 显 示 了 类 数 ， 即 不 同 的 多 元 正 态 模 型 (成分) 的 数量 。 





























BIC 
-4800 


-5200 


-5600 

















图 7-11: 在 选取 不 同类 (成 分 ) 数 的 情况 下 ， 股 票 收益 数据 的 BIC 值 
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该 绘图 类 似 于 确定 K-Means 的 类 数 时 所 使 用 的 肘 部 图 (参见 图 7-6)， 只 是 绘制 的 值 是 
BIC， 而 不 是 方差 被 解释 的 百分比 。 其 中 一 个 很 大 的 差异 在 于 ，mctust 显示 的 并 非 一 行 ， 
而 是 同时 显示 了 14 个 不 同 的 行 ! 这 是 因为 mctust 实际 上 为 每 种 聚 类 规模 拟 合 了 14 个 不 同 
的 模型 ， 并 最 终 选 择 一 个 最 优 拟 合 模型 。 

为 什么 mclust 需要 拟 合 这 么 多 的 模型 ， 才 能 确定 最 优 的 多 元 正 态 分 布 ? 这 是 因为 在 拟 合 模 
型 时 ， 有 多 种 方法 可 以 参数 化 协 方差 矩阵 之 。 在 大 多 数 情况 下 ， 我 们 并 不 需要 操心 模型 的 

细节 ， 可 以 简单 地 使 用 mctust 所 选择 的 模型 。 在 本 例 中 ， 根 据 BIC， 三 个 不 同 的 模型 〈 称 
为 VEE、VEV 和 VVE) 使 用 两 个 成 分 给 出 了 最 优 拟 合 。 


基于 模型 的 聚 类 是 一 个 正在 快速 发 展 的 研究 领域 ， 本 书 只 介绍 了 该 领域 中 的 
一 小 部 分 内 容 。 事 实 上 ， 仅 是 mctust 的 帮助 文件 就 长 达 154 页 。 对 于 数据 科 
学 家 磁 到 的 大 多 数 问题 来 说 ， 无 须 耗费 过 多 的 精力 去 查看 基于 模型 的 聚 类 的 
细节 。 









































基于 模型 的 聚 类 技术 确实 存在 一 些 限 制 。 此 类 方法 需要 根据 数据 情况 对 模型 做 出 一 个 汗 在 
的 假设 ， 并 且 到 类 的 结果 非常 依赖 于 该 假设 。 此 类 方法 的 计算 资源 需求 其 至 高 于 层次 聚 
类 ， 因 此 很 难 扩展 到 大 数据 上 。 此 外 ， 该 算法 比 其 他 方法 更 复杂 ， 更 难以 使 用 。 












































本 节 要 点 
。 ead 0 
有 不 同 的 概率 分 
忆 基于 失 弄 的 天 方法 扫 合 了 不 同 的 楼, 信 和 有 不 同业 的 分 布 通 是 正 态 分 布 ) 。 
。 基于 模型 的 聚 类 方法 无 须 使 用 过 多 的 参数 〈 即 过 拟 合 ) ， 就 能 选 出 一 个 能 很 好 地 拟 
合 数 据 的 模型 〈 以 及 类 数 ) 。 











7.4.4 ”拓展 阅读 
基于 模型 的 聚 类 的 更 多 信息 ， 参 见 mclust 的 文档 。 


7.5 变量 的 缩放 和 分 类 变量 


使 用 无 监督 学 习 技术 时 ， 一 般 需 要 适度 地 缩放 数据 。 这 不 同 于 许多 回归 和 分 类 技术 〈 除 了 
天 最 近邻 算法 外 ， 参 见 6.1 节 )， 其 中 变量 的 缩放 并 不 重要 。 


























主要 术语 
缩放 
缩小 或 放大 数据 的 方法 ， 常 用 于 将 多 个 变量 缩放 到 同一 尺度 上 。 
归 一 化 
一 种 通过 减 去 均值 并 除 以 标准 偏差 进行 缩放 的 方法 。 











同义词 : 标准 化 
高 氏 距 离 (Gower’s distance ) 


一 种 应 用 于 数值 数据 和 类 别 数 据 相 混合 的 缩放 算法 。 它 可 以 将 所 有 变量 缩放 到 
[0, 1] 范围 内 。 














以 个 人 贷款 数据 为 例 ， 数 据 中 的 变量 在 单位 和 数量 上 存在 很 大 的 差别 。 其 中 ， 一 些 变量 的 
值 相对 较 小 ， 例 如 工作 年 限 ， 而 另 一 些 变量 的 值 则 非常 大 ， 例 如 以 美元 为 单位 的 贷款 数 
额 。 如 果 不 缩放 数据 ， 那 么 主 成 分 分 析 、K-means 等 聚 类 方法 将 会 被 数值 较 大 的 变量 所 主 
导 ， 进 而 忽略 那些 数值 较 小 的 变量 。 


在 一 些 聚 类 过 程 中 ， 分 类 数据 可 能 会 引发 一 些 特 殊 的 问题 。 就 天 最 近邻 而 言 ， 无 序 因子 变 
量 通常 需要 使 用 独 热 编码 (参见 6.1.3 节 ) 转换 为 一 组 值 为 0 或 1 的 二 元 变量 。 而 二 元 变 
量 不 仅 会 与 其 他 数据 具有 不 同 的 规模 ， 而 且 二 元 变量 只 有 两 个 值 这 一 事实 就 可 以 证 明 主 成 
分 分 析 、K-means 等 方法 会 存在 问题 。 


7.5.1 变量 的 缩放 


在 应 用 聚 类 之 前 ， 需 要 对 具有 完全 不 同 尺 度 和 单位 的 变量 做 适当 的 归 一 化 处 理 。 例 如 ， 下 
面 代码 不 对 贷款 拖欠 数据 做 归 一 化 处 理 ， 就 应 用 了 kmeans 函数 。 


df <- defaults[, c('loan_amnt', 'annual_inc', 'revol_bal', 'open_acc', 
'dti', 'revol_util')] 
km <- kmeans(df, centers=4, nstart=10) 
centers <- data.frame(size=km$size, km$centers) 
round(centers, digits=2) 
size Loan_amnt annuaL_inc revol bal open acc dti revol util 
























































1 55 23157.27 491522.49 83471.07 13.35 6.89 58.74 
2 1218 21900.96 165748.53 38299.44 12.58 13.43 63.58 
3 7686 18311.55 83504.68 19685.28 11.68 16.80 62.18 
4 14177 10610.43 42539.36 10277.97 9.60 17.73 58.05 


从 结果 中 看 到 ， 在 类 中 占 主导 地 位 的 是 变量 annuaL_inc 和 revoL_baL， 而 且 类 规模 的 差异 
也 很 大 。 类 1 只 有 55 个 成 员 ， 即 那些 具有 较 高 收入 和 循环 信贷 的 账户 。 


一 种 常用 的 缩放 变量 方法 是 归 一 化 或 标准 化 (参见 6.1.4 节 )。 归 一 化 将 数据 减 去 平均 值 并 
除 以 标准 偏差 ， 转 换 为 2 分数。 有 关 使 用 z 分 数 的 更 多 介绍 ， 参 见 6.1.4 市 。 


X—X 
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而 ， 我 们 将 kmeans 应 用 于 归 一 化 的 数据 ， 再 次 查看 类 所 发 生 的 变化 。 


df0 <- scale(df) 
km0 <- kmeans(df0, centers=4, nstart=10) 
centers0 <-scale(kmO$centers, center=FALSE, 
scale=1/attr(df0, 'scaled:scale')) 
centers0 <- scale(centers0, center=-attr(df0, 'scaled:center'), scale=F) 
data.frame(size=kmO$size, centers0) 
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size Loan_amnt annuaL_inc revol_bal open_acc dti revol_util 


1 5429 10393.60 53689.54 6077.77 8.69 11.35 30.69 
2 6396 13310.43 55522.76 16310.95 14.25 24.27 59.57 
3 7493 10482.19 51216.95 11530.17 7.48 15.79 77.68 
4 3818 25933.01 116144.63 32617.81 12.44 16.25 66.01 

















从 这 次 的 结果 中 可 以 看 到 ， 类 的 规模 更 加 平衡 。 类 不 再 仅 被 annual_inc 和 revol_bal 所 主 
导 ， 而 是 更 多 地 揭示 了 数据 中 有 意义 的 结构 信息 。 注 意 ， 类 的 中 心 要 重新 缩放 回 前 面 代 码 中 
使 用 的 原始 单位 。 如 果 不 做 缩放 ， 那 么 结果 值 会 以 z 分 数 给 出 ， 这 会 降低 结果 的 可 解释 性 。 


缩放 对 于 主 成 分 分 析 同 样 十 分 重要 。 在 计算 主 成 分 时 ， 使 用 = 分 数 等 同 于 使 
用 相关 和 矩阵 (参见 1.7 节 ) ， 而 不 是 等 同 于 使 用 协 方差 矩阵 。 计 算 主 成 分 分 析 
的 软件 中 通常 会 提供 设置 使 用 相关 矩阵 的 选项 ， 例 如 在 了 语言 中 ， 可 以 指定 
princomp 国 数 的 参数 cor。 









































7.5.2 ”控制 变量 


即便 在 测量 中 所 有 变量 使 用 了 同一 尺度 ， 也 准确 地 反映 了 相对 重要 性 〈 例 如 股票 价格 的 变 
动 )， 有 时 还 是 需要 重新 缩放 变量 。 
下 面 ， 我 们 将 Alphabet (GOOGL) 和 亚马逊 (AMZN) 的 股票 添加 到 7.1.3 节 所 做 的 分 析 中 。 
syms <- c('AMZN', 'GOOGL' 'AAPL', 'MSFT', 'CSCO', 'INTC', 'CVX', 'XOM', 
'SLB', 'COP', 'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COST') 
top_sp1 <- sp500_px[row.names(sp500_px)>="'2005-01-01', syms] 


sp_pcal <- princomp(top_sp1) 
screeplot(sp_pcal1) 


生成 的 陡坡 图 如 图 7-12 所 示 。 我 们 知道 ， 陡 坡 图 可 以 显示 第 一 主 成 分 的 方差 。 从 图 7-12 

中 可 以 看 到 ， 第 一 主 成 分 和 第 二 主 成 分 间 的 差异 远大 于 其 他 的 主 成 分 。 这 通常 表明 载荷 是 

由 一 两 个 变量 支配 的 。 在 下 面 的 例子 中 我 们 可 以 看 出 情况 的 确 如 此 。 
round(sp_pcals$loadings[,1:2], 3) 


Comp.1 Comp.2 
GOOGL 0.781 0.609 








7 






































AMZN 0.593 -0.792 
AAPL 0.078 0.004 
MSFT 0.029 0.002 
CSCO 0.017 -0.001 
INTC 0.020 -0.001 
CVX 0.068 -0.021 
XOM 0.053 -0.005 

0.079 -0.013 


SLB 
第 一 主 成 分 和 第 二 主 成 分 几乎 完全 由 GOOGL 和 AMZN 所 支配 。 这 是 因为 GOOGL 和 
AMZN 股票 的 价格 走势 主导 着 变异 性 。 


要 处 理 这 种 情况 ， 我 们 可 以 原封 不 动 地 添加 数据 ， 并 重新 缩放 变量 (参见 7.5.1 节 )， 也 可 
以 在 分 析 中 剔除 控制 变量 ， 并 对 这 些 控制 变量 做 单独 处 理 。 并 不 存在 一 个 所 谓 “ 正 确 ” 的 
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方法 ， 具 体 使 用 的 处 理 方法 取决 于 应 用 。 
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图 7-12: 添加 GOOGL 和 AMZN 股票 后 ， 标 准 普尔 500 指数 中 排名 靠 前 的 几 家 公司 股票 的 主 成 分 
分 析 的 陡坡 图 


7.5.3 ”分 类 数据 和 高 氏 距 离 


分 类 数据 必须 要 转换 为 数值 型 数据 。 转 换 可 以 通过 排序 (对 于 有 序 因子 ) 实现 ， 也 可 以 通 
过 编码 为 一 组 二 元 变量 (虚拟 变量 ) 实现 。 如 果 数 据 中 有 连续 变量 和 二 元 变量 ， 那 么 一 般 
需要 缩放 变量 ， 使 各 个 变量 间 有 具有 相似 的 范围 (参见 7.5.1 节 )。 一 种 常用 方法 是 使 用 高 氏 
距离 。 


高 氏 距 离 的 基本 思想 是 ， 根 据 数据 类 型 ， 对 每 个 变量 应 用 不 同 的 距离 度量 。 


。 对 于 数值 型 变量 和 有 序 因子 ,高 氏 距 离 计 算 为 两 条 记录 间 差 异 的 绝对 值 ( 即 曼哈顿 距离 ) 。 

。 对 于 分 类 变量 ， 如 果 两 个 记录 属于 不 同 的 类 ， 那 么 距离 为 1， 如果 它 们 属于 同一 个 分 类 ， 
那么 距离 为 0。 

高 氏 距 离 的 计算 步骤 如 下 。 

(1) 对 每 条 记录 ， 计 算 所 有 变量 对 i 和 j 间 的 距离 d; ,。 

(2) 将 每 个 距离 dj 缩放 到 区 间 [0, 1] 中 。 

(3) 使 用 简单 均值 或 加 权 均 值 ， 将 所 有 变量 对 间 的 缩放 距离 相 加 ， 创 建 一 个 距离 矩阵 。 


为 了 更 好 地 解释 高 氏 距离 ， 我 们 以 贷款 数据 为 例 ， 从 数据 中 取 几 行 。 




































































> x = defaults[1:5, c('dti', 'payment_inc_ratio', "home' ， "purpose ')] 


> X 
#A tibble: 5 x 了 4 
dti payment_inc_ratio home purpose 
<dbL> <dbL> <fctr> <fctr> 
1 1.00 2.39320 RENT Car 
2 5.55 4.57170 OWN small_business 
3 18.08 9.71600 RENT other 
4 10.08 12.21520 RENT debt_consolidation 
5 7.06 3.90888 RENT other 


然后 使 用 cluster 软件 包 中 的 daisy 函数 计算 高 氏 距离 。 


> library(cluster) 
> daisy(x, metric='gower') 


Dissimilarities : 
1 2 3 4 
2 0.6220479 
3 0.6863877 0.8143398 
4 0.6329040 0.7608561 0.4307083 
5 0.3772789 0.5389727 0.3091088 0.5056250 




















从 结果 中 可 以 看 到 ， 所 有 的 距离 值 都 介 于 0 和 1 之 间 。 距 离 最 大 的 记录 对 是 记录 2 和 记录 
3。 这 两 条 记录 中 的 数值 型 变量 home 或 purpose 的 值 不 同 ， 分 类 变量 dti (债务 与 收入 比 ) 
和 payment_inc_ratio 的 层级 也 完全 不 同 。 记 录 3 和 记录 5 之 间 的 距离 最 小 ， 因 为 它们 的 
home 或 purpose 变量 具有 相同 的 值 。 


下 面 对 daisy 函数 的 输出 调用 hctust， 对 所 生成 的 距离 矩阵 应 用 层次 聚 类 (参见 7.3 节 )。 


df <- defauLts[sampLe(nrow(defauLts)，250) ， 
c('dti', 'payment_inc_ratio', "home' ， "purpose ')] 
d = daisy(df, metric='gower') 
hcl <- hclust(d) 
dnd <- as.dendrogram(hcl) 
plot(dnd, leaflab='none', ylab='distance') 


结果 生成 如 图 7-13 所 示 的 树 状 图 。 从 图 中 可 以 看 到 ， 单 个 记录 在 x 轴 上 是 不 可 区 分 的 ， 但 
是 可 以 使 用 下 面 的 代码 检查 其 中 某 个 子 树 中 的 记录 。 本 例 中 指定 了 左边 的 子 树 ， 使 用 的 
“截止 值 ”为 0.5。 


> df[labels(dnd_cut$lower[[1]]),] 
#A tibble: 9 x 4 
dti payment _ inc_ ratio home purpose 
<dbl> <dbl> <fctr> <fctr> 
24.57 0.83550 RENT other 
34.95 5.02763 RENT other 
1.51 2.97784 RENT other 
8.73 14.42070 RENT other 
.05 9.96750 RENT other 
1 
4. 
6. 
9 . 




































































10.15 43180 RENT other 
19.61 14.04420 RENT other 
20.92 90123 RENT other 
22.49 36000 RENT other 


该 子 树 完 全 由 贷款 用 途 为 “其 他 ”的 借款 者 组 成 。 虽 然 无 法 真正 地 实现 所 有 子 树 的 严格 分 
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离 ， 但 这 已 经 说 明了 分 类 变量 趋向 于 聚集 在 类 中 。 
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7-13: 对 具有 多 种 类 型 变量 的 贷款 拖欠 数据 样本 应 用 hcLust 所 生成 的 树 状 图 
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7.5.4 混合 数据 的 聚 类 问题 

K-Means 和 主 成 分 分 析 最 适合 用 于 连续 变量 。 对 于 较 小 的 数据 集 ， 使 用 基于 高 氏 距 离 的 层 
次 聚 类 更 好 。 从 原理 上 看 ，K-Means 完全 适用 于 二 元 数据 和 分 类 数据 。 我 们 通常 会 使 用 
“ 独 热 编码 ”( 参 见 6.1.3 节 )， 将 分 类 数据 转换 为 数值 型 数据 。 然 而 在 实践 中 ， 很 难 对 二 元 
数据 应 用 K-Means 和 主 成 分 分 析 。 

如 果 使 用 标准 的 分数 ， 那 么 二 元 变量 将 会 主导 聚 类 的 定义 。 这 是 因为 0/1 变量 只 有 两 个 
值 ， 而 天 -Means 是 通过 将 所 有 的 0 或 1 工 记录 指定 给 聚 类 ， 获 得 较 小 的 类 内 平方 和 。 例 如 ， 
下 面 我 们 将 kmeans 函数 应 用 于 具有 因子 变量 home 和 pub_rec_zero 的 贷款 拖欠 数据 。 


df <- model.matrix(~ -1 + dti + payment_inc_ratio + home + pub_rec_zero， 
data = defaults) 
















































































df0 <- scale(df) 
km0 <- kmeans(df0, centers=4, nstart=10) 
centers0 <-scale(kmO$centers, center=FALSE, 
scale=1/attr(df0, 'scaled:scale')) 
round(scale(centers0, center=-attr(df0, 'scaled:center'), scale=False), 2) 
dti payment_inc_ratio homeMORTGAGE homeOWN homeRENT pub_rec_zero 


1 17.02 9.10 0.00 0 1.00 1.00 
2 17.47 8.43 1.00 0 0.00 1.00 
3 17.23 9.28 0.00 1 0.00 0.92 
4 16.50 8.09 0.52 0 0.48 0.00 
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从 结果 中 可 以 看 出 ， 因 子 变 量 的 不 同 层级 基本 上 由 前 4 个 类 所 代理 。 为 了 避免 出 现 这 样 的 
问题 ， 我 们 可 以 对 二 元 变量 做 缩放 ， 使 其 具有 比 其 他 变量 更 小 的 方差 。 对 于 非常 大 的 数据 
集 ， 我 们 可 以 将 聚 类 应 用 于 具有 不 同 分 类 值 的 各 个 数据 子 集 。 例 如 ， 我 们 可 以 将 聚 类 分 别 
应 用 于 有 房贷 的 借款 者 、 完 全 拥有 房屋 的 借款 者 或 租赁 房屋 的 借款 者 。 









































本 节 要 点 
。 以 不 同 尺度 测 量 的 变量 ， 需 要 转换 到 相似 的 尺度 上 上。 这样， 变量 对 算法 的 影响 不 会 
主要 由 变量 的 尺度 决定 。 
。 归 一 化 (标准 化 ) 是 一 种 常用 的 缩放 方法 一 一 减 去 均值 再 除 以 标准 偏差 计算 。 
。 男 一 种 缩放 方法 是 高 民 距 离 ， 它 将 所 有 的 变量 缩放 到 [0, 1] 范围 内 。 高 氏 距 离 通常 
用 于 含有 数值 型 数据 和 分 类 数据 的 混合 数据 。 














7.6 小 结 


对 于 数值 型 数据 的 降 维 ， 主 要 使 用 的 工具 是 主 成 分 分 析 和 天 -Means 聚 类 。 使 用 这 两 种 方法 
时 ， 需 要 适当 地 缩放 数据 ， 以 确保 数据 的 归 约 有 意义 。 


如 果 对 聚 类 良好 分 离 的 高 度 结 构 化 数据 做 聚 类 ， 所 有 方法 可 能 会 给 出 相似 的 结果 。 不 同 的 
方法 各 有 优点 。 天 -Means 可 以 扩展 到 规模 非常 大 的 数据 ， 结 果 也 易于 理解 。 层 次 聚 类 可 应 
用 于 含有 数值 型 数据 和 分 类 数据 的 混合 数据 ， 并 能 给 出 直观 的 显示 〈 即 树 状 图 )。 基 于 模 
型 的 聚 类 方法 不 同 于 上 面 两 种 启发 式 方法 ， 它 是 根据 统计 学 理论 提出 的 ， 因 此 更 为 严格 。 
但 是 对 于 规模 非常 大 的 数据 集 ， 聚 类 主要 使 用 天 -Means 方法 。 

对 于 有 噪声 的 数据 ， 例 如 贷款 数据 和 股票 数据 (数据 科学 家 所 面 对 的 大 部 分 数据 集 都 是 有 
噪声 的 )， 选 择 更 为 重要 。K-Means、 层 次 聚 类 ， 尤 其 是 基于 模型 的 聚 类 ， 都 会 给 出 完全 不 
同 的 解决 方案 。 那 么 数据 科学 家 应 该 如 何 选择 呢 ? 不 幸 的 是 ， 没 有 一 种 简单 的 经 验 法 则 可 
提供 指导 。 最 终 选 用 哪 种 方法 ， 取 决 于 数据 的 规模 和 应 用 的 目标 。 
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封面 说 明 

本 书 封面 上 的 动物 是 一 种 粗 腿 厚 纹 稻 (学 名 : Pachygrapsus crassipes) ， 也 称 为 条 纹 岸 蟹 ， 分 
布 于 北美 洲 、 中 美洲 、 韩 国 和 日 本 的 太平 洋 沿岸 海滩 。 这 种 甲壳 类 动物 生活 在 岩石 、 潮 汐 
池 和 和 裂 颖 中 ,一 生 中 有 大 约 一 半 的 时 间 在 陆地 上 ， 但 会 定期 返回 到 水 中 ， 以 保持 鳃 的 湿润 。 
条 纹 上 岸 钥 的 命名 源 于 其 褐 黑色 甲壳 上 的 绿色 条 纹 。 它 们 的 稻 爪 是 红色 的 ， 腿 是 柴 色 的 ， 上 
面 也 有 条 纹 或 斑驳 图 案 。 它 们 一 般 可 以 长 到 3 至 5 厘米 ， 峻 性 略 小 。 它 们 的 眼睛 呈 秆 状 ， 
可 以 灵活 旋转 ， 这 使 它们 在 行走 时 具有 完整 的 视野 。 

螃 稻 是 一 种 杂食 动物 ， 主 要 摄食 藻类 ， 但 也 食用 软体 动物 、 蠕 虫 、 真 菌 、 死 亡 动 物 和 其 他 
甲壳 动物 ， 具 体 取 决 于 可 获取 的 食物 。 它 们 在 发 育成 熟 的 过 程 中 要 多 次 换 光 ， 通 过 吸入 水 
分 来 扩张 并 打开 旧 壳 。 一 旦 完成 换 壳 ， 它 们 要 经 历数 小 时 的 艰难 时 光 方 可 自由 行动 。 这 时 
它们 必须 隐藏 起 来 ， 直 到 新 壳 完 全 硬化 。 

O"”Reilly 图 书 封面 上 的 许多 动物 正 濒临 灭绝 。 这 些 动物 对 于 我 们 这 个 世界 非常 重要 。 要 详 
细 了 解 如 何 帮 助 它们 ， 请 访问 animals.oreilly.com。 








封面 图 片 来 自 Pictorial Museum of Animated Nature. 
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